Goolge 翻譯是不少人日常生活的好用工具,但很少人知道它其實是好幾個工具組合起來的產品。
日常生活中要實現語音對語音翻譯,常要先語音辨識為文字 (Speech-to-Text,STT),再用機器學習將文字轉城目標語言文字,最後將文字「念出來」(Text-to-Speech,TTS)。這 3 段過程其實都需花時間做運算,每一步驟都有機會發生錯誤,使最終的翻譯成品出錯。Google 日前公布新的 Translatotron 翻譯模型,除了直接聲音對聲音的翻譯方式,節省翻譯時間,還能保留原講者的聲音。
Google 展示新的聲音對聲音翻譯流程,想要打破傳統三階段瀑布流方式的問題:時間長、每步驟會累積錯誤導致整體翻譯出問題。Translatotron 提出片段對片段的網路模型來處理資料,維持講者的聲音和韻律,並且提高翻譯內容準確度。
Google Research 表示,新的翻譯演算模型翻譯準確性,仍比不上傳統的瀑布流流程。但是新模式有運作更快的好處,還能避免機器產生語音時,生硬的機器音。
Translatotron 的技術部分有發表論文,詳細分享如何實作。有興趣的人,可以到 Google Research 的 GitHub 頁面體驗不同語音翻譯方式,還有 Translatotron 採用模式,比較實際翻譯的語音的差異。
- Google’s Translatotron can translate speech in the speaker’s voice
- Google’s Translatotron is an end-to-end model that mimics human voices
- Google’s Translatotron converts one spoken language to another, no text involved
- Google’s Translatotron translates speech directly to speech
- 本文授權轉載自:TechNews(科技新報)
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!