ADVERTISEMENT
▲告示牌也能使用Google翻譯閱讀。
「要教導機器了解人類的語言,以及語言中的重音與發聲習慣,無疑是一件複雜無比的事,我們每天都在努力改善機器的表現。若我們替機器加入更多的語音樣本,人們使用Google翻譯就能獲得更正確、更有用的結果。」圖洛斯基說。
圖洛斯基點出Google翻譯所碰上的難題:語音資料的不足。族群龐大的語言並沒有這種問題,可是對於族群較小(如波斯語),或是不常使用語音翻譯的族群(如許多亞洲國家),Google翻譯就顯得力有未逮,正確率也不盡理想。Google必須想辦法鼓勵用戶使用他們的語音翻譯,才能夠帶來更完美的翻譯結果。
▲用德語和英語交談也沒問題。
2014年5月,微軟公開一段Skype的即時口譯演出,讓美國人與德國人藉由即時口譯來交談。雖然口譯結果並不十分正確,兩位當事人還是能夠暢談甚歡。微軟研發部門主管的彼得.李(Peter Lee)表示,Skype口譯的用法就和一般的Skype差不多,唯一的差別是彼此不需要會講對方的語言。
「想像一下,你可以將口中的德語,轉換成文法與意義皆正確無誤的英語,Skype口譯就是你所期待的未來。藉由Skype口譯,你幾乎可以跟世界上的任何一個人溝通。」李這麼表示。
▲Skype口譯不完美,卻極富潛力。
微軟研究機器翻譯已超過十年,Skype口譯是最近才展現的成果。工程師原本使用高斯混合模型(GMM,一種古典的語音辨識方法)來建構語音資料,屬於靜態的機率函數。幾年前,工程師認為高斯混合模型的應用效果不佳,便改採類似人腦運作的深度神經網絡(Deep Neuron Networks,DNN),成為微軟的新標準。
2010年,微軟獲得一次成功的技術躍進。開發部門的法蘭克.賽迪(Frank Seide)等人開發出一套新技術「The Translating Telephone」,能夠將語音即時翻譯為文字,或是口譯為對應的語言。後來微軟便以該系統為基礎,反覆投注語音樣本,使得系統效能提升了42%,進而促成語音助手Cortana,以及Skype口譯的問世。
▲藉由Skype口譯與外國人溝通。
就和Google翻譯一樣,微軟花了許多心思,蒐集到數量龐大的語音樣本,從社群網路中尋找用戶書寫文字的語言習慣,利用這些資料持續訓練系統,才讓Skype口譯具備現在的表現。
文字和語音本質上仍是不同的東西,其中的差別在於語音具有不流暢的混沌本質。舉例來說,我們說話時經常用到發語詞「嗯」、「喔」、「那個」,系統必須將其視為發語詞,避免將其視為口譯目標。
「那些發語詞不屬於語音的字。」微軟的機器翻譯首席,艾盧.曼尼茲(Arul Menezes)在部落格上表示,「有時候,人們會講幾個字,隨後又從頭講出完整的語句。對於幾種特定的語言,像是西班牙語,這種狀況可能正好符合文法架構,要過濾這種狀況十分棘手。我們過去幾年持續努力,部分理由就是為了釐清語言的矛盾,填補文字和語音之間的鴻溝。」
▲Skype口譯的運作流程圖。
語言博大精深,利用機器即時翻譯的難度頗高,卻絕非不可能的任務。人類實際鑽研即時翻譯領域的時間不過區區20餘年,能有現在的成果實屬難能可貴。若能夠照這種速度持續進步,或許在你我的有生之年裡,就有機會使用趨近完美的即時翻譯,終結人類自從巴比倫之塔以來的漫長語言隔閡,美好的願景令人期待不已呢。
現在只要拍下來就可以翻譯
真是太方便了