CityU logo

Meta AI发布SeamlessM4T,一个多语言和多模态机器翻译模型

在今天互联互通的世界,互联网、移动设备和社交媒体将全球的人联系在一起,跨语言沟通的能力比以往任何时候都更加重要。得益于人工智能的进步,科幻小说中无缝、通用的翻译梦想即将成为现实。一个革命性的多语言和多任务模型SeamlessM4T推出,它承诺改变我们跨越语言障碍的方式。

SeamlessM4T是一个多功能工具,提供近100种语言的自动语音识别和翻译,涵盖文本和语音。它支持语音转文本和文本转语音翻译,还支持语音到语音的翻译,成为语言沟通的全面解决方案。这个模型是一个革命性的变革者,解决了现有系统的局限性,这些系统仅适用于世界语言的一小部分,并且通常依赖独立的子系统。

SeamlessM4T的独特之处在于它能够处理资源有限的低中资源语言,这些语言的数字语言资源有限。此外,它在高资源语言如英语、西班牙语和德语方面表现优异,消除了需要单独的语言识别模型。

作为朝向开放科学的一步,SeamlessM4T在CC BY-NC 4.0下发布,允许研究人员和开发人员在此基础上进行创新。它附带了丰富的数据集SeamlessAlign,包含270,000小时的挖掘语音和文本对齐,使社区更容易在这一领域进行研究。

SeamlessM4T是多年研究和开发的结晶,吸取了No Language Left Behind(NLLB)、Universal Speech Translator、SpeechMatrix和Massively Multilingual Speech等项目的见解。这个模型承诺将我们带向通用翻译器,实现跨越语言和文化的有效沟通,为全球合作和理解开辟新的可能性。

SeamlessM4T支援以下功能:

  • 近100种语言的自动语音识别
  • 近100种输入和输出语言的语音转文本翻译
  • 语音到语音的翻译,支援近100种输入语言和35种(+英语)输出语言
  • 近100种语言的文本到文本翻译
  • 文本到语音的翻译,支援近100种输入语言和35种(+英语)输出语言

SeamlessM4T的运作原理:方法和架构

为了构建统一的多语言和多模态翻译模型SeamlessM4T,以下概述几个关键的组件和创新点:

  • 重建的序列建模工具包:这个项目的基础是重新设计的fairseq2序列建模工具包。这个工具包已经被优化以提高效率,并且被设计成可以与其他PyTorch生态系统库无缝协作,确保它可以轻松集成到更广泛的人工智能开发环境中。
  • 多任务UnitY模型架构:所采用的模型架构称为UnitY,它是一个多任务模型,能够处理各种翻译和语音任务。它可以执行自动语音识别、文本到文本、文本到语音、语音到文本和语音到语音的翻译。这个统一的架构简化了翻译过程,消除了为不同任务使用独立模型的需要。
  • 语音和文本编码器:该模型包含两个主要的编码器:语音编码器和文本编码器。这些编码器分别负责识别近100种语言的语音输入和理解近100种语言的文本输入。
  • 文本解码器:文本解码器接受编码的语音表示或文本表示,并生成翻译文本。它可以处理同一语言内和跨多语言的翻译任务。该解码器由一个名为NLLB(No Language Left Behind)的强大文本到文本翻译模型的令牌级知识蒸馏引导。
  • 文本到单元(T2U)组件:为了生成语音表示,使用了一个文本到单元(T2U)组件。它将文本输出转换为离散的声学单元,并且在自动语音识别(ASR)数据上预训练。
  • HiFi-GAN单元声码器:在生成离散的语音单元之后,使用多语言HiFi-GAN单元声码器将这些单元转换为音频波形,实现类似人类的语音合成。
  • 数据扩展和挖掘:模型需要大量高质量的端对端数据来支持模型的训练并确保可扩展性。这种方法包括创建一个名为SONAR的大规模多语言和多模态文本嵌入空间,涵盖了200种语言。然后使用教师-学生方法将这个嵌入空间扩展到语音模态,涵盖了36种语言。通过对公开可用的网络数据和语音存储库进行挖掘,创建了一个名为SeamlessAlign的大型语料库,其中包括语音/语音和语音/文本对齐,使其成为体积和语言覆盖面最大的开放数据集之一。

该方法结合了先进的建模技术、数据扩展策略和高效的编码器,以构建SeamlessM4T,这是一个全面的多语言和多模态翻译模型,能够消除语言障碍,促进跨语言和模态的无缝沟通。

SeamlessM4T在S2ST(语音到语音翻译)和S2T(语音到文本翻译)方面的成就

在SeamlessM4T和最先进的竞争对手模型(包括直接系统和级联系统)上测量的翻译质量平均超过 81 个 FLEURS X-English 语言对

SeamlessM4T在多种与语言相关的任务方面表现卓越,为近100种语言提供了最先进的成果。它支援各种任务,包括自动语音识别、语音到文本、语音到语音、文本到语音和文本到文本翻译,全部在一个单一模型内实现。该模型还特别提高了资源有限的语言的性能,同时保持了资源丰富的语言的强劲性能。

为了提供更准确的系统性能评估,Meta引入了一个无文本的度量标准BLASER 2.0。这个度量标准允许在语音和文本单元之间进行评估,并表现出与其前身可比的准确度。在稳健性测试方面,SeamlessM4T在处理语音到文本任务中的背景噪音和说话者变化方面优于现有模型,平均改善分别达到37%和48%。

Meta希望透过这项技术帮助不同语言的人彼此联系,他们并且探索这个基础模型如何能够实现新的通讯能力,最终将我们带向一个每个人都能够被理解的世界。

本文是在 AI 的协助下撰写,并参考以下来源:

https://ai.meta.com/blog/seamless-m4t/

https://github.com/facebookresearch/seamless_communication

https://ai.meta.com/research/publications/seamlessm4t-massively-multilingual-multimodal-machine-translation/

https://seamless.metademolab.com/

在此感谢 InnoHK、香港特别行政区政府及人工智能金融科技实验室对本文的支持。
(AIFT 竭力但不能保证内容之准确和可靠,亦不会承担因任何不准确或遗漏而引起的任何损失或损害。)

分享此內容

人工智能金融科技实验室与中银香港进一步加强金融科技合作

Tokenization Revolution - Unleashing Banking's Growth Potential

地址

香港沙田香港科学园科技大道西 19号
11楼 1101-1102 及 1121-1123 室

产品及解决方案

人才

工作机会

关于我们

地址

版权所有 © 2024 人工智能金融科技实验室有限公司