科技行业资讯门户

广告

广告

广告

广告

广告

Nature重磅:科幻“巴别鱼”真来了?AI实现人类101种语言语音互译

【蜂耘网 人工智能】《银河系漫游指南》中的 巴别 ,赋予了人们瞬间跨越语言鸿沟的能力,是无数人心中「高效语言交流」的终极形式。

 

如今 我们距离实现这一梦想或许不远 

 

img1

 

就在今天,权威科学期 Nature 报道了 Meta 开发的开源多语言、多模态机器翻译模 SeamlessM4T 突破性地实现 100 多种语言在语-语音、语-文本和文-语音方面的高效翻 ,为全球语言沟通带来了新的可能。

 

img2

 

具体而言SeamlessM4T 能够接受这些语言中的任何一种的文本或语音输入,并将其翻译为文本,还可以直接将语音翻译 36 种语言的语音。

 

不仅如此SeamlessM4T 在处理语音到文本任务时,抵御背景噪音和适应说话者变化的能力也比其他系 平均高出 50% ,展现出强大的鲁棒性。

 

对此,塔林理工大学语言处理教 Tanel Alumäe 在评论文章中表示作者利用现实世界数据的方法将为语音技术开辟一条充满希望的道路 有望与科幻作品中的技术相媲 

 

他还写道这项工作最大的优点并非提出的想法或方法,而是运行和优化该技术的所有数据和代码都可公开获取,尽管模型本身仅可用于非商业用途。研究人员将他们的翻译模型描述基础模,这意味着 可以在精心策划的数据集上进行微调,以实现特定目 ,例如提高某些语言对或专业术语的翻译质量

 

当前,在这项研究的基础上Meta  UnitY2 架构,运用层级字符到单元的上采样和非自回归文本到单元的解码方法,训练出 改进版 SeamlessM4T V2 ,在保持高准确率的同时,加快了生成语音和文本翻译结果的速度。

 

AI 正在打破人类语言壁垒

 

尽管当前的机器翻译技术已经取得显著进展,但大多局限于文本翻译,语音到语音翻译S2ST)面临诸多挑战。

 

现有的多语种翻译系统通常依赖于级联系统,通过多个子模型串联完成复杂任务,不仅翻译效率低,而且主要适应于少数几种语言,在面对背景噪音和说话人变化等不稳定因素时,鲁棒性不足。

 

为了解决这些问题SeamlessM4T 应运而生。该模型基 SONAR 多语言和多模态嵌入空间架构,将语音、文本的处理能力有效结合,并通过海量原始语音和文本数据自动挖掘对齐资源,实现了翻译的准确性和流畅性提升。

 

另外,研究团队还采用自监督和半监督学习方法训练模型,使其能从大量原始数据中学习,减少了对人工特定标签的依赖。

 

img3

 | SEAMLESSM4T-V2 系统架构

 

在数据层面SeamlessM4T 通过新的语言识别LID)模型识 100 多种语言。在研究过程中Meta 团队基 SONAR 嵌入空间 200 种语言提供了单一的文本编码器和解码器,并 37 种语言提供了语音编码器,且通过文本到文本翻译T2TT)任务,证明注意力机制并非实现合理翻译准确率的必要条件。利 SONAR 的文本和语音编码器Meta 团队挖掘出三种对齐数据,构建了涵 37 种语言、时长 47 万小时 SeamlessAlign 语料库。

 

SeamlessM4T 在多个翻译任务中的表现显著超过了传统的级联模型,在语言覆盖和任务处理速度等方面优势显著。 AudioPaLMWHISPER 等大型语音理解和生成模型相比SeamlessM4T 优势明显。

 

在语音到文本翻译S2TT)任务 X-eng 方向SeamlessM4T-V2  BLEU 得分比传统级联系统提高 4.6 分,性能提升显著;对 AudioPaLM 2 - 8B AST 等直 S2TT 模型,提高 6.9 分,展现出其在多语种翻译中的强大优势。

 

在语音到语音翻译S2ST)任务中SeamlessM4T-LARGE 比两阶段级联模型 ASR-BLEU 得分高 8 分,改进以后SeamlessM4T-V2 进一步提升 3.9 分,显著领先于其他同类系统。

 

在语音到文本翻译 CVSS 任务中SeamlessM4T - V2 相较于两阶段级联模型ASR - BLEU 得分提高 9.6 分。

 

img4

 | SOTA 语音到文本翻/语音到语音翻译模型

 

在零样本文本到语音翻译T2ST)任务中SeamlessM4T - LARGE V2 部分语言方向的表现与级联模型相当,甚至更优,体现了模型强大的通用性和灵活性。

 

这表明SeamlessM4T 在没有训练数据的情况下,仍然能够提供准确的翻译结果,进一步提升了模型的通用性和灵活性。

 

SeamlessM4T 在抗噪声和适应说话人变化方面也实现了技术突破。在背景噪音和说话人变化的实验中SeamlessM4T - V2  WHISPER - LARGE - V2 的表现提升 50%

 

在语音到语音翻译任务中SeamlessM4T - V2 抗背景噪声能力提 42%,对说话人变化的适应性提 66%。这些改进使 SeamlessM4T 在嘈杂环境等实际应用场景中,仍能保证高效、精确的翻译表现。

 

img5

 | 多任务处理结果

 

此外,随 AI 技术的广泛应用,机器翻译模型中的毒性和偏见问题备受关注Meta 团队 SeamlessM4T 进行了严格的毒性和性别偏见评估,并采取了缓解措施。

 

img6

 | 语音到文本翻译和语音到语音翻译在添加了毒性考量 28 种语言方向上的平均结果

 

在毒性检测方面,他们采 ETOXMuTox  Mintox 等工具,排除训练中的有害数据,减少模型产生有毒输出的概率,为用户提供健康的交流环境;在性别偏见方面,研究团队通 BLASER 2.0 等工具 SeamlessM4T 进行检测和优化SeamlessM4T 在处理性别变化时比之前版本表现出更强的鲁棒性,尤其是 S2ST 任务中的性别变化鲁棒性显著提升。

 

警惕潜在风险

 

 SeamlessM4T 已经可以翻译 100 种语言,但仍然存在一些局限性。

 

世界上约 7000 种语言,该工具在许多人类易处理的场景中仍面临困 。而且,在实际应用中SEAMLESSM4T 系统 ASR 性能受用户性别、种族、口音和语言差异影响,导致识别和翻译不准确,限制了其在多元化人群中的应用。

 

在处理俚语和专有名词时,该系统在不同资源程度语言中的翻译质量参差不齐;在实时交互场景中,由于语音交流对即时反馈要求高,用户难以评估输出质量,误译或毒性内容风险较高,且无法像书面交流那样修改。同时 语音的韵律和情感信息在当前系统输出中未得到充分体 ,影响信息准确传达。

 

研究人员表示 未来将进一步研究语音的韵律和情感,让翻译后的语音输出更加自然生 。另一方面,低延迟语音翻译和流式翻译技术成为关键突破点,低延迟可减少翻译时间差,使交流更流畅。

 

在评论文章中,康奈尔大学助理教 Allison Koenecke 则从安全方面提出了担忧 基于语音的技术越来越多地用于高风险任 ,例如在医疗检查中做笔记或转录法律程序, Meta 团队开发的模型正在加速这一领域的进展。但是,这些模型的用户(例如医生和法庭官员)以及提供语音输入的个人,都应该意识到语音技术的易错性

 

Koenecke 提到,鉴 现有模型的性能在不同语言之间差异很 ,必须格外小心,以确保模型能够熟练翻译或转录某些语言中的特定术语。这方面的努力应与计算机视觉研究人员的工作同步进行,后者正在努力改善图像识别模型在代表性不足群体中的不佳表现,并防止模型做出冒犯性预测。

 

此外,她还认为,未来有必要运用以设计为导向的思维,确保用户能够正确理解这些质量参差不齐的模型所提供的翻译。开发者还应该考虑如何告知模型的局限性。这可能包 在准确性存疑时完全放弃输出,或者为低质量的输出配上书面警告或视觉提 。也许最重要的是,如果用户愿意,他们应该能够选择不使用语音技术,如在医疗或法律环境中。

 

参考链接:

https://www.nature.com/articles/s41586-024-08359-z

https://www.nature.com/articles/d41586-024-04095-6

作者:田小婷

 

 

(蜂耘人工智能网  责任编辑:行云)

2025-01-16 17:06

广告

来源:学术头条
《银河系漫游指南》中的 神奇“巴别鱼” ,赋予了人们瞬间跨越语言鸿沟的能力,是无数人心中「高效语言交流」的终极形式。如今, 我们距离实现这一梦想或许不远了 。

声明:凡来源标明“蜂耘网”的文章版权均为本站所有,如需转载请务必注明出处,违者本网将追究相关法律责任;所有未标明来源为“蜂耘网”的转载文章目的在于传递更多信息,均不代表本网立场及观点,“蜂耘网”不对这些第三方内容或链接做任何保证或承担任何责任;如涉及版权等问题,请在内容发表之日起一周内与本网联系,否则视为放弃相关权利。

所有评论仅代表网友意见,与本站立场无关

最新资讯

推荐阅读

热门排行

1、

2、

3、

4、

5、

6、

7、

8、

专题推荐

人物访谈

  • 坚定扛牢“走在前、挑大梁”的使命担当(权威访谈·谋发展 启新篇)

    来源:人民日报
    2024年,山东经济社会高质量发展取得积极成效。新的一年,作为经济大省的山东如何坚定扛牢“走在前、挑大梁”的使命担当?如何全面贯彻落实中央经济工作会议精神,奋力推动经济社会高质量发展?记者采访了山东省委书记林武。

    12 2025-01-21
  • 一文了解查理·芒格:为什么他是巴菲特最推崇的人

    来源:
    ①巴菲特写道,“如果没有查理的灵感、智慧和参与,伯克希尔-哈撒韦公司不可能发展到今天的地位”;
    ②芒格曾表示,“如果世上未曾有过查理·芒格这个人,巴菲特的业绩依然会像现在这么漂亮 ”
    ③两周前,芒格还公开在节目中维护93岁的老友巴菲特。

    173 2023-11-29
  • 面壁者,拉里·佩奇

    来源:中欧商业评论
    这两年,硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦,这为他的公司引来了铺天盖地的负面新闻,然而,他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。

    294 2022-06-15

会议活动

微信公众号

广告

相关新闻