Meta開發數位浮水印工具AudioSeal，可以檢測聲音中是否有AI生成的片段

Meta創建了一個系統，可以在AI生成的聲音剪輯中嵌入隱藏的訊號（即數位浮水印），這有助於檢測在網路上AI生成的內容。

該工具稱為AudioSeal，是第一個可以準確定位聲音中哪些部分是由AI工具所生成的，例如在一小時長的podcast中。Meta的研究科學家Hady Elsahar表示，這有助於解決使用語音複製工具進行日益嚴重的假訊息和詐騙的問題。惡意的人已經使用生成式AI製作了美國拜登總統的語音deepfakes，詐騙者也使用deepfakes來勒索受害者。數位浮水印理論上可以幫助社群媒體公司檢測和刪除不當的內容。

然而，也有一些重要的注意事項。Meta表示，目前還沒有計劃將浮水印應用於使用其工具創建的AI生成的音訊。音訊浮水印還沒有被廣泛採用，也沒有單一的行業標準。而且AI生成內容的浮水印往往容易被篡改，例如通過刪除或偽造。

Elsahar表示，快速檢測和能夠準確定位音訊檔案中哪些元素是AI生成的，將是使該系統有用的關鍵。他表示，該團隊在檢測浮水印方面達到了90%到100%的準確率，比之前任何嘗試為在音訊中加入浮水印的方法都要好得多。

AudioSeal在GitHub上免費下載。任何人都可以下載並使用它來為AI生成的音訊剪輯加入浮水印。它最終可以覆蓋在AI音訊生成模型之上，因此可以自動應用於使用它們生成的任何語音。開發建它的研究人員將在7月於奧地利維也納的國際機器學習會議上展示他們的研究內容。

AudioSeal是使用兩個神經網路創建的。一個生成可以嵌入音軌的浮水印訊號。這些訊號人耳聽不到，但可以使用另一個神經網路快速檢測到。目前，如果你想嘗試在較長的剪輯中發現AI生成的音訊，必須逐秒搜索整個剪輯，看看其中是否有任何一秒包含浮水印。這是一個緩慢而費力的過程，在擁有數百萬分鐘語音內容的社群媒體平台上並不實際。

AudioSeal的工作方式不同，它透過在整個音軌的每個部分嵌入浮水印。這使得浮水印可以被「定位」，這意味著即使音訊被裁剪或編輯，仍然可以檢測到它。

芝加哥大學電腦科學教授Ben Zhao表示，這種能力以及近乎完美的檢測準確率使AudioSeal比他遇到過的任何以前的聲音浮水印系統都要好。

非營利組織「Partnership on AI」的AI和媒體誠信負責人Claire Leibowicz表示：「探索改進浮水印技術的研究是有意義的，特別是在像語音這樣比視覺內容更難標記和檢測的媒介中。」

但是，在這些類型的音訊浮水印可以被大量採用之前，還有一些主要的缺陷需要克服。Meta的研究人員測試了不同的攻擊來刪除浮水印，發現關於浮水印演算法的訊息披露越多，它就越脆弱。該系統還要求人們自願將浮水印加到他們的音訊檔案中。

Zhao表示，這對該工具施加了一些根本性限制。「如果攻擊者能夠接觸到浮水印檢測器，它就相當脆弱。」他說。這意味著只有Meta能夠驗證音訊內容是否是AI生成的。

Leibowicz表示，儘管浮水印在科技行業作為一種解決方案很受歡迎，但她仍然不相信浮水印實際上會增進公眾對他們所看到或聽到的訊息的信任。這部分是因為浮水印本身很容易被濫用。

她補充說：「我對任何浮水印是否能夠抵禦對抗性剝離和偽造持懷疑態度。」

延伸閱讀：微軟宣佈Bing Image Creator正式支援DALL-E 3，還內建數位浮水印讓人能分辨AI生成圖片
延伸閱讀：DeepMind為AI生成圖像新增浮水印技術SynthID，讓一般人更容易辨識圖片是否是AI創作的
資料來源