Voicebox:文本引导的多语言规模化通用语音生成

科技2年前 (2023)发布 lindl
465 0 0

原文:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/

Meta AI的研究团队最近推出了一个突破性的语音生成AI模型,名为Voicebox。这是第一个能够广泛泛化的生成性AI模型,具有跨多种任务的通用性。Voicebox提供了多种风格的输出,能从零开始创建输出,也能修改现有样本。它产生高质量音频剪辑并提供六种语言的语音合成功能,同时可应用于降噪、内容编辑、风格转换和多样性样本生成。

与此前的语音生成AI不同,Voicebox采用从原始音频和对应的转录中学习的方法,无需针对每个任务进行特定训练或使用精心准备的练数据。与自回归音频生成模型不同,Voicebox能够修改给定样本的任何部分,不仅仅限于音频剪辑的末尾。

基于名为Flow Matching的方法,Voicebox在零射击文本到语音任务上取得了显著成果,超过了目前最先进的英语模型VALL-E,在可理解性和音频相似度方面表现更出色,且速度更快。在跨语言风格转换方面,Voicebox同样优于YourTTS,在字错误率和音频相似度方面均取得改进。

Voicebox为英语和多语言基准测试设立了新的最先进标准。作为一款功能强大的语音生成AI,Voicebox具有广泛的潜在用途,包括跨语言风格转换、降噪和多样性输出生成等。

© 版权声明

相关文章

暂无评论

暂无评论...