seamless

Meta AI发布了名为Seamless的实时人工智能语言翻译模型，该模型整合了此前的三个Seamless系列模型，能实时翻译100多种语言，延迟不到2秒钟，在说话者还在讲话时就开始翻译。

除了简单的文字翻译，Seamless翻译还能保持说话者的情感、语气和语调，让翻译后的语音更自然、真实。其主要特点如下：

1. 保持原声情感：SeamlessExpressive模型专注于在语音到语音翻译中保持原始语音的表达性，包括语调、情感和风格，同时保留说话人的语气和情感。
2. 实时翻译：该功能大约只有两秒的延迟。与传统的翻译系统相比，在说话者还在讲话时就开始翻译，让对话更加流畅、自然。
3. 支持多种语言：能支持近100种输入和输出语言的自动语音识别以及语音到文本翻译，还有近100种输入语言和36种输出语言的语音到语音翻译。
4. 准确性和避免误解：在构建AI翻译系统时，Meta特别关注准确性和避免误解。他们探索了如何减少翻译过程中可能出现的错误和不当内容，这对于确保沟通的质量和安全性至关重要。
5. 音频水印技术：为了防止滥用和模仿，Meta还开发了一种音频水印技术。这种技术可以在不被人耳察觉的情况下嵌入音频，以确保音频来源的可追溯性。
6. 多语言、表达性和流畅的语音翻译：Seamless模型整合了SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2的功能，旨在实现多语言、表达性和流畅的语音翻译。

此外，Meta AI还发布了一系列与Seamless Communication项目相关的元数据、数据和数据对齐工具，以支持研究社区。这个语料库是迄今为止总体积和语言覆盖范围最大的公共语音/语音和语音/文本平行语料库。