今年的開發者大會 Google I/O 上,Google Assistant 新增的「Duplex」技術成為一大焦點,他可以模仿人類聲音打電話預約餐廳、髮廊等,甚至可以模仿人類細微的說話習慣,接聽的店員甚至完全沒有察覺有異。
而這項令眾人讚嘆的科技,背後究竟使用了那些技術,而在以假亂真的機器面前,身為人類的我們應該擔心嗎?
只花不到三年,虛擬助理做到自然連續對話
2016年的 Google I/O 大會上,虛擬智慧助理 Google Assistant 正式亮相,短短不到三年的時間,虛擬助理已經可以做到自然連續的對話,甚至聲音維妙維肖,令人類也真假難辨。
這項新技術 Google 取名為「Duplex」,中文翻譯過來可以理解為「語音雙攻技術」,這跟過去我們習慣聽到的 Google 小姐,或是 Siri 、Alexa 這類機械感十足的虛擬助理不同,聲音聽起來更有「人味」。
對電腦來說,要聽起來接近人類是相當困難的,因為電腦習慣接收精確的指令,而人類在口語交談時常常很不精確,會夾雜許多語助詞跟廢話、一個句子說到一半突然更正部分內容、上下文省略一些單字、突然停頓等等。
人類說話會像這樣:
嗯......我覺得我們可以這樣做,但應該等到下周二,但...不知道耶,也許會有更好的做法之類的。
像是「嗯」、「喔」之類的填空詞,幾乎在每個語言中都很常見,多用在表達句子之間提供舒緩效果,Google在開發者大會上,示範預定沙龍以及餐廳兩種情境。第一段中我們可以聽到虛擬助理說:「我想幫一位客戶預約女士剪髮,嗯…我想預約5月3日的時間。」巧妙的在語句中加入「嗯…」。
第二段預訂餐廳的示範中,虛擬助理一開始先表達了訂位需求,後來店員告訴她不需要預訂,可以直接現場候位,虛擬助理不僅順利理解突發狀況中「不需訂位」的意思,還進一步詢問現場大概需要等多久,在這兩個示範案例中,接電話的店員都絲毫沒有察覺異狀。
機器與人類對話,三問題值得思考
Google 在大會現場沒有透露這項技術是如何研發的,但在官方部落格上有補充,說明核心是遞歸神經網絡(RNN),並建立在 TensorFlow Extended(RFX)上,為了提升精準度,Google 使用多通匿名電話來訓練 Duplex,建構出來的模型還考慮到了許多因素,例如在特定情況下的語調、答話的速度等等,例如有人問你:「大概幾點方便?」一般人會思考稍作停頓再回答,機器也必須模仿這類狀況,才能更加自然。
目前這項科技還沒發展完全,僅能應對簡單的服務預訂談話,應用場景相當有限,不能隨意談論任何話題,Google 表示 Duplex 有「自我監控能力」,若談話內容超出能力範圍,會自動發出警示讓人類接手,且僅支援英文。
撇開技術不說,Duplex 確實改變了機器與人類互動的想像,但也有三個值得討論的問題:
像是 Google 有義務吿訴對方自己是在跟機器對話嗎?這是一個兩難的選擇,若接起電話一開始就聽到:「嘿,我是機器人!」那麼大部分的人應該會下意識直接掛掉吧。
另外,無論再小的談話,都具有一定的社交價值,當我們無法分辨電話那端是真人或機器時,會不會讓人心變得猜忌,且削弱我們對所見所聞的信任嗎?另外這項技術會不會變成一種階級特權,讓掌握技術的人,隨意將無聊、不想處理的對話通通丟給機器?
這些都是值得討論的問題,雖然這項技術離普及應用可能還有一段距離,但光憑大會上的簡短示範,效果就已經令人相當驚豔。
- 本文授權轉載自:bnext(數位時代)
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!