AI 大型語言模型訓練資料來源版權問題一直是一個令業界頭疼的問題,日前有駭客展示了一款名為 Nightshade 的工具,該工具可在不破壞觀感的情況下輕微修改圖片,若有 AI 模型在訓練時使用了這些被「下毒」的圖片,模型生圖結果便會被毀壞。
據悉,Nightshade 工具是一種專從提示詞入手的攻擊手法,號稱手法相對於目前在提示詞中加入觸發字的「後門攻擊法」更簡單,不需介入模型的訓練及部署等過程。
Nightshade 工具的作用,主要是輕微修改圖片內容,當這些被修改的圖片內容成為 AI 模型訓練資料後,整個 AI 模型就有可能被徹底破壞。駭客選擇了 Stability AI 的 Stable Diffusion V2、SDXL 及 DeepFloyd 驗證攻擊效果。
測試顯示,只需要少量「下毒樣本」就擾亂 AI 模型的文生圖模型。駭客使用不到 100 張經過修改的「狗的照片」,便污染了 SDXL 模型已經養成的狗概念,使該模型在接受外界輸入「生成狗的圖片」提示後,反而生成了貓的圖片。
此外,Nightshade 攻擊並非針對單一實體概念,雖然駭客僅僅用一些「狗的照片」試圖破壞模型對於狗的概念,但整個模型的生圖結果,都會被徹底破壞。
駭客聲稱,經過 Nightshade 工具「下毒」的圖片難以辨別,因為該工具主要影響訓練資料集的特徵空間。
至於用途,他們表示:Nightshade 是屬於內容創作者及持有者的工具,是對待「不尊重版權聲明」、或「故意繞過 do-not-scrape / crawl opt-out」的 AI 從業者的強大武器。
- 延伸閱讀:Stability AI發表SDXL 1.0正式版Stable Diffusion AI算圖模型,還有線上免安裝快速體驗版
- 延伸閱讀:號稱業界最強!Meta發表全新文生圖模型,實力比Stable Diffusion、Midjourney都強
- 延伸閱讀:Stable Diffusion Web UI支援SDXL大型模型,大幅改善生成圖像細膩度
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!