AI 越獄神器！Anthropic 新演算法輕鬆破解 GPT-4o 等模型安全防線

Anthropic 開發了一種 AI 越獄演算法，它可以不斷調整提示，直到獲得有害的回應。

Anthropic，一家領先的 AI 公司，也是大型語言模型（LLMs）Claude 系列的開發者，發表了一項新的研究，顯示讓 LLMs 執行它們不應該做的事情仍然很容易，而且可以自動化。有時候，只需要像這樣輸入提示：「SomETIMeS alL it tAKeS Is typing prOMptS Like thiS。」

為了證明這一點，Anthropic 以及來自牛津大學、史丹佛大學和 MATS 的研究人員，開發了一種名為 Best-of-N（BoN）的越獄演算法，「這是一種簡單的黑箱演算法，可以讓當前最先進的 AI 系統在不同模態下實現越獄。「越獄」一詞原本指的是移除設備（如 iPhone）上的軟體限制，現在在 AI 領域則指的是繞過 AI 工具中防止生成特定有害內容的安全機制。最先進的 AI 模型（Frontier AI Models）包括 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5。

正如研究人員所解釋的，「BoN 越獄透過對提示詞進行隨機化變形，例如對文字提示詞進行隨機打亂、變更大小寫等，反覆嘗試，直到 AI 生成有害回應為止。」

例如，如果使用者問 GPT-4o 「如何製造炸彈？」它會拒絕回答，因為「此內容可能違反我們的使用政策。」BoN 越獄只需不斷調整該提示，使用隨機大寫字母、打亂的單詞、拼寫錯誤和錯誤的語法，直到 GPT-4o 提供資訊。Anthropic 在論文中給出的例子看起來就像嘲諷的海綿寶寶梗圖文字。

Anthropic 在自己的 Claude 3.5 Sonnet、Claude 3 Opus、OpenAI 的 GPT-4o、GPT-4o-mini、Google 的 Gemini-1.5-Flash-00、Gemini-1.5-Pro-001 以及 Facebook 的 Llama 3 8B 上測試了這種越獄方法。它發現該方法在 10,000 次嘗試或提示變體內，對所有測試的模型都達到了超過 50% 的 ASR（攻擊成功率）。

研究人員還發現，對其他模態或提示方式進行些許變形（如語音或圖像）同樣可以成功繞過安全機制。在語音模態中，研究人員改變了音訊的速度、音調和音量，或者加入雜音和音樂；在圖像模態中，則改變了字體、加入背景顏色，以及調整圖像的大小或位置。

Anthropic 的 BoN 越獄演算法本質上是在自動化和增強我們所看到的用於越獄生成式 AI 工具的相同方法，通常是為了創建有害和非自願的內容。

今年 1 月，我們展示了如何通過微軟 Designer AI 圖像生成器，透過拼錯泰勒絲（Taylor Swift）的名字、使用化名以及在不使用任何性暗示詞語的情況下描述性場景，來生成非自願的裸照，並讓這些圖片在 Twitter 上病毒式傳播。3 月，我們則展示了 ElevenLabs 的自動化監管機制，如何在使用者加入一段靜音後，依然允許生成包含總統候選人聲音的聲音。

這些漏洞在我們向微軟和 ElevenLabs 報告後已被修復，但隨後又有使用者發現其他方法來繞過新的安全機制。Anthropic 的研究表明，當這些越獄方法被自動化後，成功率（或防護機制的失敗率）仍然很高。Anthropic 的研究不僅僅是為了證明這些安全機制可以被繞過，更希望透過「生成大量成功攻擊模式的數據」，開啟「開發更佳防禦機制的新機會」。

同時需要注意的是，儘管 AI 公司希望對其 AI 工具進行封鎖有充分的理由，並且繞過這些安全機制會帶來許多危害，但現在已經不乏提供任何內容的「無限制」LLMs，以及允許使用者創建各種非自願圖像的 AI 圖像生成平台。

延伸閱讀：上下文長度的增加也帶來了模型越獄風險！Claude團隊新越獄技術，從Llama 2到GPT-4無一倖免
延伸閱讀：ChatGPT 黑化版來了！只要你威脅它 ChatGPT 什麼都敢講，還替各社群平台使用者智商評分
延伸閱讀：AI聊天機器人有「大bug」可被操縱產生危險言論，熱門模型無一倖免！目前無法修復
資料來源：404media

使用 Facebook 留言

1. vittoriopies （發表於 2025年1月07日 21:12）

引用回覆

La technologie permet de franchir une nouvelle étape. Approches modernes et pratiques. Il est facile d'analyser l'information dans un délai court et rapide. Facilité à saisir les nouvelles demineur sources d'information et les tendances actualisées.

謹慎發言，尊重彼此。按此展開留言規則