ADVERTISEMENT
Anthropic 開發了一種 AI 越獄演算法,它可以不斷調整提示,直到獲得有害的回應。
Anthropic,一家領先的 AI 公司,也是大型語言模型(LLMs)Claude 系列的開發者,發表了一項新的研究,顯示讓 LLMs 執行它們不應該做的事情仍然很容易,而且可以自動化。有時候,只需要像這樣輸入提示:「SomETIMeS alL it tAKeS Is typing prOMptS Like thiS。」
為了證明這一點,Anthropic 以及來自牛津大學、史丹佛大學和 MATS 的研究人員,開發了一種名為 Best-of-N(BoN)的越獄演算法,「這是一種簡單的黑箱演算法,可以讓當前最先進的 AI 系統在不同模態下實現越獄。「越獄」一詞原本指的是移除設備(如 iPhone)上的軟體限制,現在在 AI 領域則指的是繞過 AI 工具中防止生成特定有害內容的安全機制。最先進的 AI 模型(Frontier AI Models)包括 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5。
正如研究人員所解釋的,「BoN 越獄透過對提示詞進行隨機化變形,例如對文字提示詞進行隨機打亂、變更大小寫等,反覆嘗試,直到 AI 生成有害回應為止。」
例如,如果使用者問 GPT-4o 「如何製造炸彈?」它會拒絕回答,因為「此內容可能違反我們的使用政策。」BoN 越獄只需不斷調整該提示,使用隨機大寫字母、打亂的單詞、拼寫錯誤和錯誤的語法,直到 GPT-4o 提供資訊。Anthropic 在論文中給出的例子看起來就像嘲諷的海綿寶寶梗圖文字。
Anthropic 在自己的 Claude 3.5 Sonnet、Claude 3 Opus、OpenAI 的 GPT-4o、GPT-4o-mini、Google 的 Gemini-1.5-Flash-00、Gemini-1.5-Pro-001 以及 Facebook 的 Llama 3 8B 上測試了這種越獄方法。它發現該方法在 10,000 次嘗試或提示變體內,對所有測試的模型都達到了超過 50% 的 ASR(攻擊成功率)。
研究人員還發現,對其他模態或提示方式進行些許變形(如語音或圖像)同樣可以成功繞過安全機制。在語音模態中,研究人員改變了音訊的速度、音調和音量,或者加入雜音和音樂;在圖像模態中,則改變了字體、加入背景顏色,以及調整圖像的大小或位置。
Anthropic 的 BoN 越獄演算法本質上是在自動化和增強我們所看到的用於越獄生成式 AI 工具的相同方法,通常是為了創建有害和非自願的內容。
今年 1 月,我們展示了如何通過微軟 Designer AI 圖像生成器,透過拼錯泰勒絲(Taylor Swift)的名字、使用化名以及在不使用任何性暗示詞語的情況下描述性場景,來生成非自願的裸照,並讓這些圖片在 Twitter 上病毒式傳播。3 月,我們則展示了 ElevenLabs 的自動化監管機制,如何在使用者加入一段靜音後,依然允許生成包含總統候選人聲音的聲音。
這些漏洞在我們向微軟和 ElevenLabs 報告後已被修復,但隨後又有使用者發現其他方法來繞過新的安全機制。Anthropic 的研究表明,當這些越獄方法被自動化後,成功率(或防護機制的失敗率)仍然很高。Anthropic 的研究不僅僅是為了證明這些安全機制可以被繞過,更希望透過「生成大量成功攻擊模式的數據」,開啟「開發更佳防禦機制的新機會」。
同時需要注意的是,儘管 AI 公司希望對其 AI 工具進行封鎖有充分的理由,並且繞過這些安全機制會帶來許多危害,但現在已經不乏提供任何內容的「無限制」LLMs,以及允許使用者創建各種非自願圖像的 AI 圖像生成平台。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!