100種語言文字和聲音任意翻譯!Meta用AI做出了科幻電影中的萬能翻譯「巴別魚」

100種語言文字和聲音任意翻譯!Meta用AI做出了科幻電影中的萬能翻譯「巴別魚」

ADVERTISEMENT

在科幻小說《銀河便車指南》中,作家道格拉斯·亞當斯描繪了一種神奇的宇宙生物——巴別魚,它以腦電波能量為生,能夠使人們在將其塞進耳朵後,即刻理解任何語言的內容,輕鬆與外星人交流。同名電影也已於 2005 年上映。

100種語言文字和聲音任意翻譯!Meta用AI做出了科幻電影中的萬能翻譯「巴別魚」

自從小說問世以來,「巴別魚」便成為了即時語音翻譯的象徵。然而,當時人類的翻譯技術距離這一設想仍有很大的差距,始終未出現統一的語音到語音翻譯模型。 

如今,科幻電影中的「巴別魚」,Meta 用 AI 真的實現了——推出大規模多語言和多模態機器翻譯模型——SeamlessM4T。 

論文連結:SeamlessM4T—Massively Multilingual & Multimodal Machine Translation

Demo網頁連結:Seamless Communication Translation Demo

GitHub連結

據介紹,SeamlessM4T 可以在語音和文字之間做到即時翻譯和轉錄,支援以下五種功能: 

近 100 種語言的自動語音辨識;近 100 種輸入和輸出語言的語音到文字翻譯;語音到語音翻譯,支援近 100 種輸入語言和 35 種(加上英語)輸出語言;近 100 種語言的文字到文字翻譯;文字到語音翻譯,支援近 100 種輸入語言和 35 種(加上英語)輸出語言。 

100種語言文字和聲音任意翻譯!Meta用AI做出了科幻電影中的萬能翻譯「巴別魚」

為了構建這一模型,Meta 重新設計了 Fairseq 序列建模工具包,誰而創建更羽量級的模型,處理更多資訊。 

在模型方面,Meta 採用了多工 UnitY 模型架構,這一架構能夠直接生成翻譯文字和語音。這個新架構還支援自動語音辨識、文字到文字、文字到語音、語音到文字和語音到語音翻譯,這些功能已經成為基本 UnitY 模型的一部分。多工 UnitY 模型由三個主要的順序元件組成,其中文字和語音編碼器負責辨識近 100 種語言的語音輸入。隨後,文字解碼器將這一意義轉化為近 100 種語言的文字,然後是文字到單元模型,用於將其解碼為 36 種語音語言的離散聲學單元。 

為了提高模型品質和訓練穩定性,自監督編碼器、語音到文字、文字到文字翻譯元件以及文字到單元模型都經過預訓練。最終,解碼得到的離散單元通過多語言 HiFi-GAN 單元聲碼器轉化為語音。

100種語言文字和聲音任意翻譯!Meta用AI做出了科幻電影中的萬能翻譯「巴別魚」

 

利用自監督語音編碼器 w2v-BERT 2.0,研究人員分析了數百萬小時的多語種語音來學習在語音中找到結構和含義。該編碼器可以接收聲音訊號,將其分解為較小的部分,並構建所述內容的內部表示。由於口語詞彙由許多聲音和字元組成,研究人員使用長度轉接器將它們大致映射到實際單詞中。 

同樣,Meta 利用一個基於 NLLB 模型的文字編碼器,將其訓練成能夠理解近 100 種語言的文字,並產生對於翻譯有用的表示。 

Meta AI 於2022年在一篇名為「No Language Left Behind: Scaling Human-Centered Machine Translation」的論文中提出了 NLLB 模型,該模型支援 200 種語言,是一種多語言機器翻譯系統。 

經過訓練的文字解碼器能夠接收編碼的語音表示或文字表示。這可應用於同一語言的任務,如自動語音辨識和多語種翻譯任務。例如,有人可以說法語中的「bonjour」,然後期望史瓦希利語中的翻譯文字是「habari」。透過多工訓練,Meta 利用 NLLB 模型來透過 token 等級的知識蒸餾,來引導他們的語音到文字翻譯模型。 

另外,Meta 使用聲學單元來表示目標語音。UnitY 模型中的文字到單元(T2U)元件根據文字輸出生成這些離散的語音單元,並在 UnitY 微調之前在 ASR 資料上進行了預訓練。然後,使用多語言 HiFi-GAN 單元聲碼器將這些離散單元轉換為音訊波形。 

在上述功能的加持下,SeamlessM4T 可以辨識說話者何時進行程式碼切換,或者何時在一句話中在兩種或更多語言之間切換。 

此外,Meta 還構建了一個可涵蓋 200 種語言的多語言多模態文字嵌入空間——SONAR。將其擴展到語音領域,涵蓋 36 種語言。透過在網路資料和語音資料中進行挖掘,他們自動對齊了超過 443000 小時的語音和文字,並創造了 29000 小時的語音對齊資料。這個名為 SeamlessAlign 的語料庫是迄今最大的開放式語音、語音和語音以及文字平行語料庫。 

測評結果顯示,SeamlessM4T 在近 100 種語言中實現了最先進的結果,並跨自動語音辨識、語音到文字、語音到語音、文字到語音以及文字到文字翻譯的多工支援,全部由單一模型完成。此外,Meta 還顯著提升了對低資源和中資來源語言的性能,同時在高資來源語言上保持了強大的表現。 

為了更準確地評估系統,不僅依賴於基於文字的度量標準,Meta 將無文字度量標準擴展到了 BLASER 2.0,這使得在語音和文字單元之間進行評估時,與其前身相比能夠獲得類似的準確性。在魯棒性測試中,與當前最先進的模型相比,該系統在語音到文字任務中對抗背景雜音和說話者變化的性能表現更好(分別平均提升了 37% 和 48% )。

100種語言文字和聲音任意翻譯!Meta用AI做出了科幻電影中的萬能翻譯「巴別魚」

確保翻譯系統準確性至關重要,Meta 採用負責任的 AI 框架,透過研究毒性和偏見等敏感問題,來提升模型表現。他們也在語音中擴展了多語言毒性分類器,過濾了不平衡的毒性訓練資料。此外,他們還在性別偏見方面進行評估,並努力改進模型以減少毒性。未來,他們將持續致力於安全性和可靠性方面的工作。 

SeamlessM4T 就像一個 AI 版「巴別魚」,但它不需要進入我們的耳朵中。

 

參考連結: 

bigdatadigest
作者

大數據文摘(bigdatadigest)成立於2013年7月,專注數據領域資訊、案例、技術,在多家具有影響力的網站、雜誌設有專欄,致力於打造精準數據分析社群。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則