Meta 推出语音生成模型 Voicebox 使用 Flow Matching 演算法学习生成语音

Meta Voicebox语音生成模型可学习原始音讯和文字，生成自然且生动的语音，且可进行内容编辑、风格转换和生成不同声音特色的语音内容。

Meta稍早公布名为Voicebox的语音生成模型，将可透过Flow Matching演演算法，从大量原始音讯与转录文字进行学习，进而生成自然生动的语音内容。

同时，Voicebox并未限制仅能用於特定领域的语音内容，透过足够音讯与文字内容即可产生去除噪音、清晰语音，同时还能进行内容编辑、风格转换，或是输出不同声音特色语音内容。

而藉由Flow Matching演演算法，即可直接从原始音讯、文字内容进行学习，同时产生语音内容，无须像过往同类型语音生成模型必须事先完成资料学习训练，并且仅能针对单一语音内容进行训练操作。

在Flow Matching演演算法设计中，更能学习语音与文字之间差异，即便对应相同文字内容，但在不同语音呈现方式，例如语调、语速、口音或重音表现差异，会让相同文字内容有不同表意。

目前Voicebox是以累积5万小时的语音录音训练结果构成，其中涵盖英语、法语、西班牙语、德语、波兰语、葡萄牙语公开录音内容片段，以及对应文字内容，同时藉由自动生成人工智慧运作模式，不仅能快速学习各类语音发音、朗读方式，只需输入一段语音样本与文字内容，就能以所输入语音样本风格朗读文字，甚至进行後续编辑语调整。

但由於此模型可能会有被人滥用情况，因此目前Meta仅对外公布相关技术，并未公开相关模型与原始码内容。

Meta 推出语音生成模型 Voicebox 使用 Flow Matching 演算法学习生成语音

近期文章

近期留言

分類