《银河系漫游指南》中的 神奇“巴别鱼” ,赋予了人们瞬间跨越语言鸿沟的能力,是无数人心中“高效语言交流”的终极形式。如今, 我们距离实现这一梦想或许不远了 。就在今天,权威科学期刊 Nature 报道了由 Meta 开发的开源多语言、多模态机器翻译模型 SeamlessM4T,其 突破性地实现了 100 多种语言在语音-语音、语音-文本和文本-语音方面的高效翻译 ,为全球语言沟通带来了新的可能。
具体而言,SeamlessM4T 能够接受这些语言中的任何一种的文本或语音输入,并将其翻译为文本,还可以直接将语音翻译为 36 种语言的语音。
不仅如此,SeamlessM4T 在处理语音到文本任务时,抵御背景噪音和适应说话者变化的能力也比其他系统 平均高出约 50% ,展现出强大的鲁棒性。
对此,塔林理工大学语言处理教授 Tanel Alumäe 在评论文章中表示,“作者利用现实世界数据的方法将为语音技术开辟一条充满希望的道路, 有望与科幻作品中的技术相媲美 。”
他还写道,“这项工作最大的优点并非提出的想法或方法,而是运行和优化该技术的所有数据和代码都可公开获取,尽管模型本身仅可用于非商业用途。研究人员将他们的翻译模型描述为‘基础模型’,这意味着它 可以在精心策划的数据集上进行微调,以实现特定目的 ,例如提高某些语言对或专业术语的翻译质量。”
当前,在这项研究的基础上,Meta 基于 UnitY2 架构,运用层级字符到单元的上采样和非自回归文本到单元的解码方法,训练出了 改进版本 SeamlessM4T V2 ,在保持高准确率的同时,加快了生成语音和文本翻译结果的速度。
AI 正在打破人类语言壁垒
尽管当前的机器翻译技术已经取得显著进展,但大多局限于文本翻译,语音到语音翻译(S2ST)面临诸多挑战。
现有的多语种翻译系统通常依赖于级联系统,通过多个子模型串联完成复杂任务,不仅翻译效率低,而且主要适应于少数几种语言,在面对背景噪音和说话人变化等不稳定因素时,鲁棒性不足。
为了解决这些问题,SeamlessM4T 应运而生。该模型基于 SONAR 多语言和多模态嵌入空间架构,将语音、文本的处理能力有效结合,并通过海量原始语音和文本数据自动挖掘对齐资源,实现了翻译的准确性和流畅性提升。
另外,研究团队还采用自监督和半监督学习方法训练模型,使其能从大量原始数据中学习,减少了对人工特定标签的依赖。
图 | SEAMLESSM4T-V2 系统架构
在数据层面,SeamlessM4T 通过新的语言识别(LID)模型识别 100 多种语言。在研究过程中,Meta 团队基于 SONAR 嵌入空间为 200 种语言提供了单一的文本编码器和解码器,并为 37 种语言提供了语音编码器,且通过文本到文本翻译(T2TT)任务,证明注意力机制并非实现合理翻译准确率的必要条件。利用 SONAR 的文本和语音编码器,Meta 团队挖掘出三种对齐数据,构建了涵盖 37 种语言、时长超 47 万小时的 SeamlessAlign 语料库。
SeamlessM4T 在多个翻译任务中的表现显著超过了传统的级联模型,在语言覆盖和任务处理速度等方面优势显著。与 AudioPaLM、WHISPER 等大型语音理解和生成模型相比,SeamlessM4T 优势明显。
在语音到文本翻译(S2TT)任务的 X-eng 方向,SeamlessM4T-V2 的 BLEU 得分比传统级联系统提高了 4.6 分,性能提升显著;对比 AudioPaLM 2 - 8B AST 等直接 S2TT 模型,提高了 6.9 分,展现出其在多语种翻译中的强大优势。
在语音到语音翻译(S2ST)任务中,SeamlessM4T-LARGE 比两阶段级联模型的 ASR-BLEU 得分高出 8 分,改进以后的SeamlessM4T-V2 进一步提升了 3.9 分,显著领先于其他同类系统。
在语音到文本翻译的 CVSS 任务中,SeamlessM4T - V2 相较于两阶段级联模型,ASR - BLEU 得分提高了 9.6 分。
图 | SOTA 语音到文本翻译/语音到语音翻译模型
在零样本文本到语音翻译(T2ST)任务中,SeamlessM4T - LARGE V2 部分语言方向的表现与级联模型相当,甚至更优,体现了模型强大的通用性和灵活性。
这表明,SeamlessM4T 在没有训练数据的情况下,仍然能够提供准确的翻译结果,进一步提升了模型的通用性和灵活性。
SeamlessM4T 在抗噪声和适应说话人变化方面也实现了技术突破。在背景噪音和说话人变化的实验中,SeamlessM4T - V2 比 WHISPER - LARGE - V2 的表现提升近 50%。
在语音到语音翻译任务中,SeamlessM4T - V2 抗背景噪声能力提高 42%,对说话人变化的适应性提升 66%。这些改进使 SeamlessM4T 在嘈杂环境等实际应用场景中,仍能保证高效、精确的翻译表现。
图 | 多任务处理结果
此外,随着 AI 技术的广泛应用,机器翻译模型中的毒性和偏见问题备受关注。Meta 团队对 SeamlessM4T 进行了严格的毒性和性别偏见评估,并采取了缓解措施。
图 | 语音到文本翻译和语音到语音翻译在添加了毒性考量的 28 种语言方向上的平均结果
在毒性检测方面,他们采用 ETOX、MuTox 和 Mintox 等工具,排除训练中的有害数据,减少模型产生有毒输出的概率,为用户提供健康的交流环境;在性别偏见方面,研究团队通过 BLASER 2.0 等工具对 SeamlessM4T 进行检测和优化,SeamlessM4T 在处理性别变化时比之前版本表现出更强的鲁棒性,尤其是在 S2ST 任务中的性别变化鲁棒性显著提升。
警惕潜在风险
尽管 SeamlessM4T 已经可以翻译约 100 种语言,但仍然存在一些局限性。
世界上约有 7000 种语言,该工具在许多人类易处理的场景中仍面临困难 。而且,在实际应用中,SEAMLESSM4T 系统的 ASR 性能受用户性别、种族、口音和语言差异影响,导致识别和翻译不准确,限制了其在多元化人群中的应用。
在处理俚语和专有名词时,该系统在不同资源程度语言中的翻译质量参差不齐;在实时交互场景中,由于语音交流对即时反馈要求高,用户难以评估输出质量,误译或毒性内容风险较高,且无法像书面交流那样修改。同时, 语音的韵律和情感信息在当前系统输出中未得到充分体现 ,影响信息准确传达。
研究人员表示, 未来将进一步研究语音的韵律和情感,让翻译后的语音输出更加自然生动 。另一方面,低延迟语音翻译和流式翻译技术成为关键突破点,低延迟可减少翻译时间差,使交流更流畅。
在评论文章中,康奈尔大学助理教授 Allison Koenecke 则从安全方面提出了担忧,“ 基于语音的技术越来越多地用于高风险任务 ,例如在医疗检查中做笔记或转录法律程序,像 Meta 团队开发的模型正在加速这一领域的进展。但是,这些模型的用户(例如医生和法庭官员)以及提供语音输入的个人,都应该意识到语音技术的易错性。”
Koenecke 提到,鉴于 现有模型的性能在不同语言之间差异很大 ,必须格外小心,以确保模型能够熟练翻译或转录某些语言中的特定术语。这方面的努力应与计算机视觉研究人员的工作同步进行,后者正在努力改善图像识别模型在代表性不足群体中的不佳表现,并防止模型做出冒犯性预测。
此外,她还认为,未来有必要运用以设计为导向的思维,确保用户能够正确理解这些质量参差不齐的模型所提供的翻译。开发者还应该考虑如何告知模型的局限性。这可能包括 在准确性存疑时完全放弃输出,或者为低质量的输出配上书面警告或视觉提示 。也许最重要的是,如果用户愿意,他们应该能够选择不使用语音技术,如在医疗或法律环境中。
参考链接:
https://www.nature.com/articles/s41586-024-08359-z
https://www.nature.com/articles/d41586-024-04095-6