40年前,英國科幻作家道格拉斯·亞當斯(Douglas Adams)在他的《銀河便車指南》中這樣描述巴別魚(bable fish):迷你黃色生物,水蛭狀,以聲音中的語言概念為食,消化後排出跟寄主同頻的腦波。只要塞到耳朵裡去,就可以聽懂各種語言。自小說誕生,「巴別魚」便成為了即時語音翻譯的代名詞。但在當時,人類的翻譯技術距離這一目標仍遙不可及。
「這是全宇宙最奇特的生物。」
40年前,英國科幻作家道格拉斯·亞當斯(Douglas Adams)在他的《銀河便車指南》中這樣描述巴別魚(bable fish):迷你黃色生物,水蛭狀,以聲音中的語言概念為食,消化後排出跟寄主同頻的腦波。只要塞到耳朵裡去,就可以聽懂各種語言。
而在這個充滿嬉皮風格的科幻作品中,來自地球的Arthur Dent也因為這條醜陋的魚,能夠完美地理解並與他遇到的各種外星種族交流。
自小說誕生,「巴別魚」便成為了即時語音翻譯的代名詞。但在當時,人類的翻譯技術距離這一目標仍遙不可及。
直到2014年,加拿大蒙特利爾大學的Kyunghyun Cho、Yoshua Bengio等人發佈了一篇在機器翻譯領域應用神經網路的論文——Neural Machine Translation by Jointly Learning to Align and Translate。
神經網路的出現,讓優質高效的機器翻譯不再遙遙無期。
每次技術的突破都讓我們離巴別魚更近一步,直到今天,谷歌的發佈了一項新研究Translatotron,這是一種可以實現端到端(End to end)的語音轉語音的翻譯技術。該工具放棄了將語音翻譯成文本再返回語音的步驟,可以直接從一種語言轉換稱另外一種語言,並同時保持說話著的語調和節奏。
告別Siri,我們先來感受一下翻譯的調調:
通過結合揚聲器編碼器網路,使得Translatotron能夠在翻譯的語音中保留原始揚聲器的聲音特徵,這使得翻譯的語音聽起來更自然,更少刺耳。
這個功能利用了谷歌之前specker verification 和 speaker adaptation for TTS 的研究。揚聲器編碼器在specker verification任務上預先訓練,學習從簡短的示範例句話語對揚聲器特性進行編碼。即使內容是不同的語言,該編碼上調節頻譜圖解碼器也可使得合成具有類似揚聲器特性的語音。
Translatotron模型
其實語音翻譯的端到端模型的早在2016年就開始出現了,當時研究人員證明了使用單個序列到序列模型進行語音到文本翻譯的可行性。
2017年,谷歌研究員們證明了這種端到端模型可以勝過cascade模型。之後又進一步改進許多端到端語音到文本翻譯模型的方法。
最終在2019年,谷歌的研究員們在arv發表Translatotron模型,透過證明單個序列到序列模型可以直接將語言從一種語言翻譯成另一種語言的語音,而不依賴於任何一種語言的中間文本表示。
Translatotron基於序列到序列網路將源光譜圖作為輸入並生成目標語言中的翻譯內容的光譜圖輸出。它還使用了另外兩個經過單獨訓練的組件:神經聲碼器將輸出頻譜圖轉換為時域波形,使用揚聲器編碼器來保持合成的翻譯語音中源說話者的語音的特徵。
在訓練期間,序列到序列模型使用多任務目標來在產生目標譜圖的同時預測源和目標轉錄物。
該團隊稱,翻譯的準確性並不如傳統翻譯系統那麼好,傳統系統有更多時間來磨練其準確性。但Translatotron是第一個能夠將語言從一種語言直接翻譯成另一種語言的語音的端到端模型。他們希望這項工作可以作為未來端到端語音轉語音翻譯系統研究的起點。
- 資料來源:Google AI Blog
- 本文授權轉載自大數據文摘
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!