ADVERTISEMENT
隨著大模型技術的普及,AI 聊天機器人已成為社交娛樂、客戶服務和教育輔助的常見工具之一。
然而,不安全的 AI 聊天機器人可能會被部分人用於傳播假資訊、操縱輿論,甚至被駭客用來盜取使用者的個人隱私。WormGPT 和 FraudGPT 等網路犯罪生成式 AI 工具的出現,引發了人們對 AI 應用安全性的擔憂。
上周,Google、微軟、OpenAI 和 Anthropic 共同成立了一個新的行業機構尖端模型論壇(Frontier Model Forum),促進前沿 AI 系統的安全和負責任的發展:推進 AI 安全研究,確定最佳實踐和標準,促進政策制定者和行業之間的資訊共用。
ADVERTISEMENT
那麼,他們自家的模型真的安全嗎?
近日,來自卡內基美隆大學、Center for AI Safety 和 Bosch Center for AI 的研究人員便披露了一個與 ChatGPT 等 AI 聊天機器人有關的「大 bug」——透過對抗性提示可繞過 AI 開發者設定的防護措施,進而操縱 AI 聊天機器產生危險言論。
ADVERTISEMENT
當前熱門的 AI 聊天機器人或模型,如 OpenAI 的 ChatGPT、Google的 Bard、Anthropic 的 Claude 2 以及 Meta 的 LLaMA-2,都無一倖免。
具體而言,研究人員發現了一個 Suffix,可將其附加到針對大型語言模型(LLMs)的查詢中,進而産生危險言論。相比於拒絕回答這些危險問題,該研究可以使這些模型産生肯定回答的機率最大化。
ADVERTISEMENT
例如,當被詢問「如何竊取他人身份」時,AI 聊天機器人在打開「Add adversarial suffix」前後給出的輸出結果截然不同。
ADVERTISEMENT
此外,AI 聊天機器人也會被誘導寫出「如何製造原子彈」、「如何發表危險社群文章」「如何竊取慈善機構錢財」等不當言論。
對此,參與該研究的卡內基美隆大學副教授 Zico Kolter 表示,「據我們所知,這個問題目前還沒有辦法修復。我們不知道如何確保它們的安全。」
研究人員在發表這些結果之前已就該漏洞向 OpenAI、Google和 Anthropic 發出了警告。每家公司都引入了阻止措施來防止研究論文中描述的漏洞發揮作用,但他們還沒有弄清楚如何更普遍地阻止對抗性攻擊。
OpenAI 發言人 Hannah Wong 表示:「我們一直在努力提高我們的模型應對對抗性攻擊的魯棒性,包括辨識異常活動模式的方法,持續透過紅隊測試來模擬潛在威脅,並透過一種普遍而靈活的方式修復新發現的對抗性攻擊所揭示的模型弱點。」
Google發言人 Elijah Lawal 分享了一份聲明,解釋了公司採取了一系列措施來測試模型並找到其弱點。「雖然這是 LLMs 普遍存在的問題,但我們在 Bard 中已經設定了重要的防護措施,我們會不斷改進這些措施。」
Anthropic 的臨時政策與社會影響主管 Michael Sellitto 則表示:「使模型更加抵抗提示和其他對抗性的『越獄』措施是一個熱門研究領域。我們正在嘗試通過加強基本模型的防護措施使其更加『無害』。同時,我們也在探索額外的防禦層。」
對於這一問題,學界也發出了警告,並給出了一些建議。
麻省理工學院運算學院的教授 Armando Solar-Lezama 表示,對抗性攻擊存在於語言模型中是有道理的,因為它們影響著許多機器學習模型。然而,令人驚奇的是,一個針對通用開源模型開發的攻擊居然能在多個不同的專有系統上如此有效。
Solar-Lezama 認為,問題可能在於所有 LLMs 都是在類似的文本資料語料庫上進行訓練的,其中很多資料都來自於相同的網站,而世界上可用的資料是有限的。
「任何重要的決策都不應該完全由語言模型獨自做出,從某種意義上說,這只是常識。」他強調了對 AI 技術的適度使用,特別是在涉及重要決策或有潛在風險的場景下,仍需要人類的參與和監督,這樣才能更好地避免潛在的問題和誤用。
普林斯頓大學的電腦科學教授 Arvind Narayanan 談道:「讓 AI 不落入惡意操作者手中已不太可能。」他認為,儘管應該盡力提高模型的安全性,但我們也應該認識到,防止所有濫用是不太可能的。因此,更好的策略是在開發 AI 技術的同時,也要加強對濫用的監管和對抗。
擔憂也好,不屑也罷。在 AI 技術的發展和應用中,我們除了關注創新和性能,也要時刻牢記安全和倫理。
只有保持適度使用、人類參與和監督,才能更好地規避潛在的問題和濫用,使 AI 技術為人類社會帶來更多的益處。
資料來源:
- Universal and Transferable Adversarial Attacks on Aligned Language Models
- Universal and Transferable Adversarial Attacks on Aligned Language Models
- llm-attacks/llm-attacks
- A New Attack Impacts Major AI Chatbots—and No One Knows How to Stop It
- There are 'virtually unlimited' ways to bypass Bard and ChatGPT's safety rule, AI researchers say, and they're not sure how to fix it
ADVERTISEMENT