駭客開發 Nightshade 工具為AI資料「下毒」，別人未經允許拿了你的圖訓練出來的模型會「指鹿為馬」

AI 大型語言模型訓練資料來源版權問題一直是一個令業界頭疼的問題，日前有駭客展示了一款名為 Nightshade 的工具，該工具可在不破壞觀感的情況下輕微修改圖片，若有 AI 模型在訓練時使用了這些被「下毒」的圖片，模型生圖結果便會被毀壞。

據悉，Nightshade 工具是一種專從提示詞入手的攻擊手法，號稱手法相對於目前在提示詞中加入觸發字的「後門攻擊法」更簡單，不需介入模型的訓練及部署等過程。

Nightshade 工具的作用，主要是輕微修改圖片內容，當這些被修改的圖片內容成為 AI 模型訓練資料後，整個 AI 模型就有可能被徹底破壞。駭客選擇了 Stability AI 的 Stable Diffusion V2、SDXL 及 DeepFloyd 驗證攻擊效果。

測試顯示，只需要少量「下毒樣本」就擾亂 AI 模型的文生圖模型。駭客使用不到 100 張經過修改的「狗的照片」，便污染了 SDXL 模型已經養成的狗概念，使該模型在接受外界輸入「生成狗的圖片」提示後，反而生成了貓的圖片。

此外，Nightshade 攻擊並非針對單一實體概念，雖然駭客僅僅用一些「狗的照片」試圖破壞模型對於狗的概念，但整個模型的生圖結果，都會被徹底破壞。

駭客聲稱，經過 Nightshade 工具「下毒」的圖片難以辨別，因為該工具主要影響訓練資料集的特徵空間。