Meta Voicebox语音生成模型可学习原始音讯和文字,生成自然且生动的语音,且可进行内容编辑、风格转换和生成不同声音特色的语音内容。

Meta稍早公布名为Voicebox的语音生成模型,将可透过Flow Matching演演算法,从大量原始音讯与转录文字进行学习,进而生成自然生动的语音内容。

同时,Voicebox并未限制仅能用於特定领域的语音内容,透过足够音讯与文字内容即可产生去除噪音、清晰语音,同时还能进行内容编辑、风格转换,或是输出不同声音特色语音内容。

而藉由Flow Matching演演算法,即可直接从原始音讯、文字内容进行学习,同时产生语音内容,无须像过往同类型语音生成模型必须事先完成资料学习训练,并且仅能针对单一语音内容进行训练操作。

在Flow Matching演演算法设计中,更能学习语音与文字之间差异,即便对应相同文字内容,但在不同语音呈现方式,例如语调、语速、口音或重音表现差异,会让相同文字内容有不同表意。

目前Voicebox是以累积5万小时的语音录音训练结果构成,其中涵盖英语、法语、西班牙语、德语、波兰语、葡萄牙语公开录音内容片段,以及对应文字内容,同时藉由自动生成人工智慧运作模式,不仅能快速学习各类语音发音、朗读方式,只需输入一段语音样本与文字内容,就能以所输入语音样本风格朗读文字,甚至进行後续编辑语调整。

但由於此模型可能会有被人滥用情况,因此目前Meta仅对外公布相关技术,并未公开相关模型与原始码内容。

strongVPN好用吗