語音複製公司Resemble AI發表新一代的Deepfake檢測模型Detect-2B,準確率高達94%。

語音複製公司Resemble AI發表新一代的Deepfake檢測模型Detect-2B,準確率高達94%。

ADVERTISEMENT

Resemble在一篇部落格文章中表示:「基於我們原始Detect模型的堅實基礎,Detect-2B在模型架構、訓練數據和整體性能方面代表了重大飛躍。結果是一個極其強大且準確的Deepfake檢測模型,在針對大量真實和虛假音訊片段的數據集進行評估時,達到了顯著的性能水準。」

據Resemble稱,Detect-2B的子模型「由一個固定的音訊表示模型組成,其關鍵層插入了一個適應模組」。適應模組將模型的重點轉向了人工痕跡(或錄音中留下的意外聲音),這些痕跡通常可以辨識真實音訊和虛假音訊。大多數AI生成的音訊片段可能聽起來「太乾淨」。Detect-2B可以預測有多少音訊是由AI生成的,而無需在每次收聽新片段時重新訓練模型。子模型也在大型數據集上進行訓練。

Detect-2B聚合其預測分數,並將這些分數與「仔細調整的閾值」進行比較,然後確定錄音是真實的還是虛假的。Resemble表示,其研究人員構建Detect-2B的方式使其訓練速度快,而不需要太多的運算能力來部署。

隨機架構使處理音訊訊號更容易

該模型的架構基於Mamba-SSM或狀態空間模型,不依賴於靜態數據或重複模式。它使用隨機概率模型,對不同變量有更好的回應。Resemble表示,這種架構非常適合音訊檢測,因為它可以捕獲音訊片段中的不同動態,適應音訊訊號的狀態,即使錄音品質差也能發揮作用。

為了評估該模型,Resemble 表示它將 Detect-2B 置於一個包含未見過的說話者、深度偽造生成的音頻和不同語言的測試集中。該公司表示,該模型在六種不同語言中正確地檢測到深度偽造音訊,準確率至少為 93%。

Resemble在4月份推出了其AI語音平台Rapid Voice Cloning。Detect-2B將透過API提供,並且可以整合到不同的應用程式中。

語音複製公司Resemble AI發表新一代的Deepfake檢測模型Detect-2B,準確率高達94%。

辨識Deepfake變得更加重要

在2024年美國總統選舉的籌備過程中,辨識AI生成的聲音或影片正變得越來越重要。AI聲音可以更容易地誤導選民和傳播錯誤信息。對AI Deepfake的擔憂,無論是偽造政治家的聲音、假裝是名人唱歌,還是只是用AI來示範某些東西,都侵蝕了對品牌的信任。

像Detect-2B這樣的工具可以在很大程度上幫助辨識和證明Deepfake,然後這些才能向公眾公開。當然,Resemble並不是唯一一個致力於檢測AI複製的公司。McAfee在一月份推出了Project Mockingbird來檢測AI音訊。另一方面,Meta正在開發一種為AI生成的音訊加入水印的方法。

Resemble表示:「但我們的工作遠未結束。隨著生成式AI能力的不斷進步,我們的檢測能力也必須如此。我們計劃了幾個令人興奮的研究方向,以進一步改進Detect-2B,重點關注表徵學習、高級模型架構和數據擴展等領域。」

netizen
作者

一個老派的科技媒體工作者,對於最新科技動態、最新科技訊息的觀察報告。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則