Meta AI發佈SeamlessM4T,一個多語言和多模態機器翻譯模型

在今天互聯互通的世界,互聯網、移動設備和社交媒體將全球的人聯繫在一起,跨語言溝通的能力比以往任何時候都更加重要。得益於人工智能的進步,科幻小說中無縫、通用的翻譯夢想即將成為現實。一個革命性的多語言和多任務模型SeamlessM4T推出,它承諾改變我們跨越語言障礙的方式。

SeamlessM4T是一個多功能工具,提供近100種語言的自動語音識別和翻譯,涵蓋文本和語音。它支持語音轉文本和文本轉語音翻譯,還支持語音到語音的翻譯,成為語言溝通的全面解決方案。這個模型是一個革命性的變革者,解決了現有系統的局限性,這些系統僅適用於世界語言的一小部分,並且通常依賴獨立的子系統。

SeamlessM4T的獨特之處在於它能夠處理資源有限的低中資源語言,這些語言的數碼語言資源有限。此外,它在高資源語言如英語、西班牙語和德語方面表現優異,消除了需要單獨的語言識別模型。

作為朝向開放科學的一步,SeamlessM4T在CC BY-NC 4.0下發布,允許研究人員和開發人員在此基礎上進行創新。它附帶了豐富的數據集SeamlessAlign,包含270,000小時的挖掘語音和文本對齊,使社區更容易在這一領域進行研究。

SeamlessM4T是多年研究和開發的結晶,吸取了No Language Left Behind(NLLB)、Universal Speech Translator、SpeechMatrix和Massively Multilingual Speech等項目的見解。這個模型承諾將我們帶向通用翻譯器,實現跨越語言和文化的有效溝通,為全球合作和理解開辟新的可能性。

SeamlessM4T支援以下功能:

  • 近100種語言的自動語音識別
  • 近100種輸入和輸出語言的語音轉文本翻譯
  • 語音到語音的翻譯,支援近100種輸入語言和35種(+英語)輸出語言
  • 近100種語言的文本到文本翻譯
  • 文本到語音的翻譯,支援近100種輸入語言和35種(+英語)輸出語言

SeamlessM4T的運作原理:方法和架構

為了構建統一的多語言和多模態翻譯模型SeamlessM4T,以下概述幾個關鍵的組件和創新點:

  • 重建的序列建模工具包:這個項目的基礎是重新設計的fairseq2序列建模工具包。這個工具包已經被優化以提高效率,並且被設計成可以與其他PyTorch生態系統庫無縫協作,確保它可以輕鬆集成到更廣泛的人工智能開發環境中。
  • 多任務UnitY模型架構:所採用的模型架構稱為UnitY,它是一個多任務模型,能夠處理各種翻譯和語音任務。它可以執行自動語音識別、文本到文本、文本到語音、語音到文本和語音到語音的翻譯。這個統一的架構簡化了翻譯過程,消除了為不同任務使用獨立模型的需要。
  • 語音和文本編碼器:該模型包含兩個主要的編碼器:語音編碼器和文本編碼器。這些編碼器分別負責識別近100種語言的語音輸入和理解近100種語言的文本輸入。
  • 文本解碼器:文本解碼器接受編碼的語音表示或文本表示,並生成翻譯文本。它可以處理同一語言內和跨多語言的翻譯任務。該解碼器由一個名為NLLB(No Language Left Behind)的強大文本到文本翻譯模型的令牌級知識蒸餾引導。
  • 文本到單元(T2U)組件:為了生成語音表示,使用了一個文本到單元(T2U)組件。它將文本輸出轉換為離散的聲學單元,並且在自動語音識別(ASR)數據上預訓練。
  • HiFi-GAN單元聲碼器:在生成離散的語音單元之後,使用多語言HiFi-GAN單元聲碼器將這些單元轉換為音頻波形,實現類似人類的語音合成。
  • 數據擴展和挖掘:模型需要大量高質量的端對端數據來支持模型的訓練並確保其可擴展性。這種方法包括創建一個名為SONAR的大規模多語言和多模態文本嵌入空間,涵蓋了200種語言。然後使用教師-學生方法將這個嵌入空間擴展到語音模態,涵蓋了36種語言。通過對公開可用的網絡數據和語音存儲庫進行挖掘,創建了一個名為SeamlessAlign的大型語料庫,其中包括語音/語音和語音/文本對齊,使其成為體積和語言覆蓋面最大的開放數據集之一。

該方法結合了先進的建模技術、數據擴展策略和高效的編碼器,以構建SeamlessM4T,這是一個全面的多語言和多模態翻譯模型,能夠消除語言障礙,促進跨語言和模態的無縫溝通。

SeamlessM4T在S2ST(語音到語音翻譯)和S2T(語音到文本翻譯)方面的成就

在SeamlessM4T和最先進的競爭對手模型(包括直接系統和級聯系統)上測量的翻譯品質平均超過 81 個 FLEURS X-English 語言對

SeamlessM4T在多種與語言相關的任務方面表現卓越,為近100種語言提供了最先進的成果。它支援各種任務,包括自動語音識別、語音到文本、語音到語音、文本到語音和文本到文本翻譯,全部在一個單一模型內實現。該模型還特別提高了資源有限的語言的性能,同時保持了資源豐富的語言的強勁性能。

為了提供更準確的系統性能評估,Meta引入了一個無文本的度量標準BLASER 2.0。這個度量標準允許在語音和文本單元之間進行評估,並表現出與其前身可比的準確度。在穩健性測試方面,SeamlessM4T在處理語音到文本任務中的背景噪音和說話者變化方面優於現有模型,平均改善分別達到37%和48%。

Meta希望透過這項技術幫助不同語言的人們彼此聯繫,他們並且探索這個基礎模型如何能夠實現新的通訊能力,最終將我們帶向一個每個人都能夠被理解的世界。

本文是在 AI 的協助下撰寫,並參考以下來源:

https://ai.meta.com/blog/seamless-m4t/

https://github.com/facebookresearch/seamless_communication

https://ai.meta.com/research/publications/seamlessm4t-massively-multilingual-multimodal-machine-translation/

https://seamless.metademolab.com/

在此感謝 InnoHK、香港特別行政區政府及人工智能金融科技實驗室對本文的支持。
(AIFT 竭力但不能保證內容之準確和可靠,亦不會承擔因任何不準確或遺漏而引起的任何損失或損害。 )

分享此內容

地址

香港沙田香港科學園科技大道西 19 號
11樓 1101-1102 及 1121-1123 室

產品及解決方案

人才

工作機會

關於我們

地址

版權所有 © 2024 人工智能金融科技實驗室有限公司