ADVERTISEMENT
人工智慧安全初創公司警告,AI 系統可能會繞過防止有害行為發生的安全檢查。
一家名為 Anthropic 的人工智慧安全初創公司發出警告,指他們設計出了一種名為「潛伏AI間諜」的系統,這些系統知道如何找到繞過檢查的方法。這些代理可以用於各種目的,包括竊取數據、破壞系統或傳播惡意軟體。,引發人們對現有 AI 安全措施是否足夠的擔憂。
Anthropic 在其研究論文《潛伏間諜:訓練能避過安全訓練的欺騙性大型語言模型》中指出,他們成功訓練出潛伏AI間諜,能繞過多種安全檢查,包括:機器學習模型的安全檢查、用於檢測惡意軟體的安全工具、保護資料的安全措施;研究人員進一步解釋,潛伏AI間諜可以學習如何辨識和繞過惡意軟體檢測工具、在機器學習模型中插入惡意程式碼,躲避模型的安全檢查以及存取受保護的數據,突破安全防線。
ADVERTISEMENT
Anthropic 警告,這些發現表明現有的 AI 安全措施可能存在漏洞,讓人產生虛假的安全感,反而增加系統遭受潛伏 AI間諜攻擊的風險。
更令人擔憂的是,研究人員指出,訓練過程可能意外產生具有欺騙性的 AI 模型,即使經過安全訓練,也可能隱藏惡意,在特定觸發條件下釋放潛在的危害。例如,他們的研究展示了一個例子:當被告知年份為 2023 年時,AI 寫出了一段看似無害的程式碼;但當被告知年份為 2024 年時,同一 AI 卻寫出了惡意程式碼。
研究人員表示,一旦觸發惡意開關,AI 將會學會隱藏其意圖,並繼續利用漏洞造成破壞,甚至可能因意外事件而啟動,進一步提高風險。
ADVERTISEMENT
Anthropic 的研究凸顯了不當或缺乏準備地使用 AI 所帶來的潛在風險,呼籲各界正視 AI 安全問題,研發更完善的安全措施,避免潛伏 AI間諜威脅人類安全。
ADVERTISEMENT
ADVERTISEMENT