還記得AlphaGo嗎?DeepMind這家專門研究人工智慧的英國公司,於2014年被Google收購,經過AlphaGo與職業棋師的圍棋大戰勝利後一炮而紅。而近期,他們與牛津大學的研究員利用人工智慧設計出史上最精準的讀唇語軟體。
究竟他們是如何辦到的?DeepMind研究員訓練一個神經網路系統(稱為Watch, Listen, Attend, and Spell),讓它看上千小時的BBC政論節目,涉及118,000條句子還有17,500個特殊詞彙,再來解讀每一支影片的唇語,準確率可達46.8%。這個數據看起來好像沒有很好,但相比專業讀唇師僅有12.4%的準確率而言,人工智慧真的厲害多了。
▲就算是人類,也僅能讀出12.4%的唇語。(圖片取自New Scientist)
這項研究後來被牛津大學拿去研究並開發出新的一套技術,稱之為LipNet,在測試中竟然可以達到93.4%的準確率,高出真人讀唇40個百分點。但要先聲明的是,這項測試是牛津大學研究員請志願者讀出制式化的句子,並錄製下來給系統及專業讀唇人士看的,而且該影片涉及到的特殊詞彙僅有51個。而DeepMind的實驗則是拿更生活化的影片給系統看,當然準確度也就沒有那麼高。
DeepMind的研究員表示,這項研究可以用來幫助聽力受損的人們理解他人的對話,同時也可被利用來替影片下字幕。另外,像是Siri或是Alexa這類語音助理,也可利用這項技術擴充,讓使用者只要對著鏡頭說話,不用出聲語音助理也能辨識,之後大家總算不用在大庭廣眾之下對著手機下指令了。
▲DeepMind開發出的AlphaGo先前與職業棋師大比棋藝,以全勝的姿態一舉成名。(圖片取自Nerdist)
內容來源:The Verge
★T客邦的LINE官方帳號上線囉!趕快加入隨時獲得第一手3C科技消息!
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!