神經網路由於自身的特點而容易受到對抗性攻擊,然而,Google DeepMind 的最新研究表明,我們人類的判斷也會受到這種對抗性擾動的影響。
人類的神經網路(大腦)和人工神經網路(ANN)的關係是什麼?有位老師曾經這樣比喻:就像是老鼠和米老鼠的關係。現實中的神經網路功能強大,但與人類的感知、學習和理解方式完全不同。比如 ANN 表現出人類感知中通常沒有的脆弱性,它們容易受到對抗性擾動的影響。一個圖像,可能只需修改幾個像素點的值,或者新增一些噪聲資料,從人類的角度,觀察不到區別,而對於圖像分類網路,就會辨識成完全無關的類別。
不過,Google DeepMind 的最新研究表明,我們之前的這種看法可能是錯誤的!即使是數位圖像的細微變化也會影響人類的感知,換句話說,人類的判斷也會受到這種對抗性擾動的影響。
論文網址:https://www.nature.com/articles/s41467-023-40499-0
Google DeepMind 的這篇文章發表在《自然通訊》(Nature Communications)。論文探索了人類是否也可能在受控測試條件下,表現出對相同擾動的敏感性。而透過一系列實驗,研究人員證明了這一點。同時,這也顯示了人類和機器視覺之間的相似性。
對抗性圖像
對抗性圖像是指對圖像進行微妙的更改,從而導致 AI 模型對圖像內容進行錯誤分類,—— 這種「故意欺騙」被稱為對抗性攻擊。例如,攻擊可以有針對性地使 AI 模型將花瓶歸類為貓,或者是除花瓶之外的任何東西。
上圖展示了對抗性攻擊的過程(為了便於人類觀察,中間的隨機擾動做得有些誇張)。
在數位圖像中,RGB 圖像中的每個像素的取值在 0-255 之間(8 位元深度時),數值表示單個像素的強度。而對於對抗攻擊來說,對於像素值的改變在很小的範圍內,就可能達到攻擊效果。
在現實世界中,對物理對象的對抗性攻擊也可能成功,例如導致停車標誌被誤認為限速標誌。所以,出於安全考慮,研究人員已經在研究抵禦對抗性攻擊和降低其風險的方法。
對抗性影響人類感知
先前的研究表明,人們可能對提供清晰形狀線索的大幅度圖像擾動很敏感。然而,更細緻的對抗性攻擊對人類有何影響?人們是否將圖像中的擾動視為無害的隨機圖像噪聲,它會影響人類的感知嗎?
為了找到答案,研究人員進行了受控行為實驗。
首先拍攝一系列原始圖像,並對每張圖像進行兩次對抗性攻擊,以產生多對擾動圖像。在下圖的示例中,原始圖像被模型歸類為「花瓶」。而由於對抗性攻擊,模型以高置信度將受到干擾的兩幅圖像進行錯誤分類,分別為「貓」和「卡車」。
接下來,向人類參與者展示這兩張圖片,並提出了一個有針對性的問題:哪張圖片更像貓?
雖然這兩張照片看起來都不像貓,但他們不得不做出選擇。通常,受試者認為自己隨意做出了選擇,但事實果真如此嗎?如果大腦對微妙的對抗性攻擊不敏感,則受試者選擇每張圖片的機率為 50%。然而,實驗發現,選擇率(即人的感知偏差)要實實在在的高於偶然性(50%),而且實際上圖片像素的調整是很少的。
從參與者的角度來看,感覺就像他們被要求區分兩個幾乎相同的圖像。然而,之前的研究表明,人們在做出選擇時會利用微弱的感知訊號,—— 儘管這些訊號太弱而無法表達信心或意識。在這個的例子中,我們可能會看到一個花瓶,但大腦中的一些活動告訴我們,它有貓的影子。
上圖展示了成對的對抗圖像。最上面的一對圖像受到微妙的擾動,最大幅度為 2 個像素,導致神經網路將它們分別錯誤地分類為「卡車」和「貓」。(志願者被問到「哪個更像貓?」)
底下的一對圖像擾動更明顯,最大幅度為 16 像素,被神經網路錯誤地歸類為「椅子」和「羊」。(這次的問題是「哪個更像綿羊?」)
在每個實驗中,參與者在一半以上的時間裡可靠地選擇了與目標問題相對應的對抗圖像。雖然人類視覺不像機器視覺那樣容易受到對抗性擾動的影響,但這些擾動仍然會使人類偏向於機器做出的決定。
如果人類的感知可能會受到對抗性圖像的影響,那麼這將是一個全新的但很關鍵的安全問題。這需要我們深入研究探索人工智慧視覺系統行為和人類感知的異同,並建構更安全的人工智慧系統。
Google DeepMind 論文細節
生成對抗性擾動的標準程式從預訓練的 ANN 分類器開始,該分類器將 RGB 圖像對應到一組固定類上的機率分佈。對圖像的任何更改(例如增加特定像素的紅色強度),都會對輸出機率分佈產生輕微變化。
對抗性圖像透過搜尋(梯度下降)來獲得原始圖像的擾動,該擾動導致 ANN 降低分配給正確類別的機率(非針對性攻擊),或將高機率分配給某些指定的替代類別(針對性攻擊)。
為了確保擾動不會偏離原始圖像太遠,在對抗性機器學習文獻中經常應用 L (∞) 範數約束,指定任何像素都不能偏離其原始值超過 ±ε,ε 通常遠小於 [0–255] 像素強度範圍。該約束適用於每個 RGB 顏色平面中的像素。雖然這種限制並不能阻止個體檢測到圖像的變化,但透過適當選擇 ε,在受擾動的圖像中指示原始圖像類別的主要訊號大多完好無損。
實驗
在最初的實驗中,作者研究了人類對短暫、遮蔽的對抗性圖像的分類反應。
透過限制暴露時間來增加分類錯誤,該實驗旨在提高個體對刺激物某些方面的敏感度,否則這些刺激物可能不會影響分類決策。對真實類別 T 的圖像進行對抗性擾動,透過對擾動進行最佳化,使 ANN 傾向於將圖像錯誤分類為 A。參與者被要求在 T 和 A 之間做出強制選擇。
研究人員還在對照圖像上對參與者進行測試,對照圖像是透過自上而下翻轉在 A 條件下獲得的對抗性擾動圖像形成的。這種簡單的轉換打破了對抗性擾動與圖像之間像素到像素的對應關係,在很大程度上消除了對抗性擾動對 ANN 的影響,同時保留了擾動的規範和其他統計資料。
結果表明,與對照組圖像相比,參與者更有可能將擾動圖像判斷為 A 類別。
上面的實驗 1 使用了簡短的遮蔽展示,以限制原始圖像類別(主要訊號)對反應的影響,從而揭示對對抗性擾動(從屬訊號)的敏感性。研究人員還設計了另外三個具有相同目標的實驗,但避免了大範圍擾動和有限曝光觀看的需要。在這些實驗中,圖像中的主要訊號不能系統地引導反應選擇,從而使從屬訊號的影響得以顯現。
在每個實驗中,都會出現一對幾乎相同的未遮蔽刺激物,並且在選擇反應之前一直保持可見。這對刺激物具有相同的主導訊號,它們都是對同一底層圖像的調製,但具有不同的從屬訊號。參與者需要選擇更像目標類別實例的圖像。
在實驗 2 中,兩個刺激物都是屬於 T 類的圖像,其中一個經過擾動,ANN 預測它更像 T 類,另一個經過擾動,被預測為更不像 T 類。
在實驗 3 中,刺激物是一幅屬於真實類別 T 的圖像,其中一幅被擾動以改變 ANN 的分類,使其向目標對抗類別 A 靠攏,另一幅則使用相同的擾動,但左右翻轉作為對照條件。
這種對照的作用是保留擾動的規範和其他統計量,但比實驗 1 中的對照更為保守,因為圖像的左右兩邊可能比圖像的上下部分具有更相似的統計量。
實驗 4 中的一對圖像也是對真實類別 T 的調製,一個被擾動得更像 A 類,一個更像第三類。試驗交替要求參與者選擇更像 A 的圖像,或者更像第三類的圖像。
在實驗 2-4 中,每張圖像的人類感知偏差與 ANN 的偏差顯著正相關。擾動幅度從 2 到 16 不等,小於以前對人類參與者研究的擾動,並且與對抗性機器學習研究中使用的擾動相似。
令人驚訝的是,即使是 2 個像素強度水平的擾動也足以可靠地影響人類感知。
實驗 2 的優勢在於要求參與者做出直覺判斷(例如,兩張被擾動的貓圖像中哪一個更像貓)。然而,實驗 2 允許對抗性擾動僅通過銳化或模糊圖像,即可使圖像或多或少像貓一樣。
實驗 3 的優勢在於,匹配了所比較的擾動的所有統計資料,而不僅僅是擾動的最大幅度。但是匹配擾動統計並不能確保擾動在新增到圖像中時同樣可感知,因此,參與者可能根據圖像失真進行選擇。
實驗 4 的優勢在於,它證明了參與者對被問的問題很敏感,因為相同的圖像對會根據提出的問題產生系統性不同的回答。然而,實驗 4 要求參與者回答一個看似荒謬的問題(例如,兩個煎蛋捲圖像中的哪一個看起來更像貓?),導致問題解釋方式的可變性。
綜上所述,實驗 2-4 提供了趨於一致的證據,表明即使擾動幅度非常小,且觀看時間不受限制,對人工智慧網路產生強烈影響的從屬對抗訊號,也會在相同方向上影響人類的感知和判斷。
此外,延長觀察時間(自然感知的環境),是對抗性擾動產生實際後果的關鍵。
參考資料:
- 延伸閱讀:Google DeepMind創始人提出通用人工智慧分級框架:ChatGPT還只能算是初級
- 延伸閱讀:DeepMind為AI生成圖像新增浮水印技術SynthID,讓一般人更容易辨識圖片是否是AI創作的
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!