Meta AI发布了名为Seamless的实时人工智能语言翻译模型,该模型整合了此前的三个Seamless系列模型,能实时翻译100多种语言,延迟不到2秒钟,在说话者还在讲话时就开始翻译。
除了简单的文字翻译,Seamless翻译还能保持说话者的情感、语气和语调,让翻译后的语音更自然、真实。其主要特点如下:
1. 保持原声情感:SeamlessExpressive模型专注于在语音到语音翻译中保持原始语音的表达性,包括语调、情感和风格,同时保留说话人的语气和情感。
2. 实时翻译:该功能大约只有两秒的延迟。与传统的翻译系统相比,在说话者还在讲话时就开始翻译,让对话更加流畅、自然。
3. 支持多种语言:能支持近100种输入和输出语言的自动语音识别以及语音到文本翻译,还有近100种输入语言和36种输出语言的语音到语音翻译。
4. 准确性和避免误解:在构建AI翻译系统时,Meta特别关注准确性和避免误解。他们探索了如何减少翻译过程中可能出现的错误和不当内容,这对于确保沟通的质量和安全性至关重要。
5. 音频水印技术:为了防止滥用和模仿,Meta还开发了一种音频水印技术。这种技术可以在不被人耳察觉的情况下嵌入音频,以确保音频来源的可追溯性。
6. 多语言、表达性和流畅的语音翻译:Seamless模型整合了SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2的功能,旨在实现多语言、表达性和流畅的语音翻译。
此外,Meta AI还发布了一系列与Seamless Communication项目相关的元数据、数据和数据对齐工具,以支持研究社区。这个语料库是迄今为止总体积和语言覆盖范围最大的公共语音/语音和语音/文本平行语料库。
相关导航
暂无评论...