解決AI潛在危害:紅隊測試成為新手段,但人工智慧安全仍需多元化防禦戰略

解決AI潛在危害:紅隊測試成為新手段,但人工智慧安全仍需多元化防禦戰略

ADVERTISEMENT

今年二月,OpenAI 宣佈推出令人驚豔的「文字轉影片」工具——Sora。只要輸入提示詞,Sora 就能在幾秒鐘內生成逼真的影片。但它並未立即向公眾開放。據報導,部分原因在於 OpenAI 擁有一支名為「紅隊」的專家團隊,他們將測試該模型,瞭解其生成深度造假影片、散播造謠、錯誤資訊以及產生偏見和仇恨內容的潛力。 

紅隊測試雖然在網路安全應用方面被證明有用,但它本質上是一種軍事工具,從未打算被私人企業廣泛採用。 

來自紐約智庫 Data & Society 的政策主管 Brian Chen 表示:「紅隊測試做得好的話,可以辨識並幫助解決人工智慧的漏洞。但它無法解決監管技術以符合公共利益的結構性差距。」 

什麼是紅隊測試?

紅隊測試的做法起源於孫武在《孫子兵法》中的軍事策略:「知己知彼,百戰不殆」。紅隊測試演習的目的,是扮演敵人 (紅隊) 的角色,找出藍隊 (防守方) 防禦中的隱藏漏洞,然後藍隊再創造性地思考如何修復漏洞。 

這種做法起源於 1960 年代的美國政府和軍方圈子,目的是預測蘇聯的威脅。如今,它主要被視為一種值得信賴的網路安全技術,用於説明保護電腦網路、軟體和專有資料。 

至少在網路安全領域,紅隊測試的成效是顯著的,因為駭客和防禦者的角色清晰明確。但是,在人工智慧領域,藍隊和紅隊的劃分尚不明確,以及在這個整個演習中,激勵參與者在理想情況下最終朝著促進公共利益的方向行動的動機是什麼,目前也不清楚。 

在紅隊測試被用來表面上幫助社會免受人工智慧潛在危害的情況下,誰扮演藍隊和紅隊?藍隊是開發人員,紅隊是駭客嗎?還是紅隊是人工智慧模型?誰來監督藍隊? 

《紅隊:如何像敵人一樣思考以取得成功》一書的作者 Micah Zenko 表示,紅隊測試的概念並不總是定義明確,其應用方式也多種多樣。他建議人工智慧紅隊測試人員應該「謹慎行事:要清楚地闡明理由、範圍、意圖和學習成果。確保對思維進行壓力測試並挑戰假設。」 

Zenko 還揭示了紅隊測試與人工智慧發展速度之間存在明顯的不匹配。他說,紅隊測試的全部意義在於辨識現有漏洞然後修復它們。他說:「如果被測試的系統不夠靜態,那麼我們就是在追逐過去。」 

為什麼紅隊測試現在成為人工智慧公共政策的一部分? 

去年 10 月 30 日,美國總統拜登簽署了 14110 號行政命令,指示美國國家標準暨技術研究院 (NIST) 制定以科學為基礎的指導方針,以支援部署安全、可靠和值得信賴的系統,其中包括用於人工智慧紅隊測試的指導方針。 

三個月後,NIST 完成了實施其新職責 (包括紅隊測試等) 的第一步。它已經在聯邦公報上收集了公眾評論,宣佈了美國人工智慧安全研究所的首任領導層,並啟動了一個聯盟來評估人工智慧系統並提高其可信賴性和安全性。 

然而,這不是拜登政府首次採用人工智慧紅隊測試。 

這種技術在拜登政府圈子裡的流行可以追溯到今年年初。據 Politico 報導,白宮官員在 3 月份會見了駭客會議 DEFCON 的組織者,並同意支持一次公開的紅隊測試演習。到 5 月份,政府官員宣佈他們支持在即將在拉斯維加斯舉行的 DEFCON 31 會議上嘗試進行一次人工智慧紅隊測試演習。然後,正如計畫的那樣,成千上萬的人在 8 月份聚集到拉斯維加斯的Caesar's Forum,測試人工智慧模型造成傷害的能力。截至發稿時,此次演習的結果尚未公佈。 

人工智慧紅隊測試能做什麼?

與任何電腦軟體一樣,人工智慧模型也存在相同的網路安全性漏洞:它們可以被惡意行為者入侵以實現各種目標,包括竊取資料或破壞系統。因此,紅隊測試可以提供一種保護人工智慧模型免受外部威脅的方法。例如,Google使用紅隊測試來保護其人工智慧模型免受諸如提示攻擊、資料投毒和後門等威脅。一旦辨識出此類漏洞,就可以修補軟體中的漏洞。

為了應對人工智慧的潛在風險,科技開發人員建立了外部專家網路,説明他們評估其模型的安全性。然而,他們傾向於聘請承包商並要求他們簽署保密協議。這些演習仍然是在閉門進行,結果僅以概略的方式向公眾報告。 

尤其對於人工智慧而言,來自 Data & Society 技術智庫的專家認為,紅隊測試不應該在公司內部進行。Zenko 建議「不僅需要獨立的協力廠商驗證,公司還應該建立跨職能和跨學科的團隊——不僅僅是工程師和駭客」。 

舊金山人工智慧安全中心 (Center for AI Safety) 的執行和研究主任 Dan Hendrycks 表示,紅隊測試也不應被視為萬能的解決方案。「這項技術一定有用,」他說,「但它只是防禦人工智慧潛在風險的一道防線,更廣泛的政策和方法生態系統才是必不可少的。」 

國家標準暨技術研究院(NIST) 新成立的人工智慧安全研究所現在有機會改變紅隊測試在人工智慧領域的使用方式。據報導,該研究所由 200 多個組織組成的聯盟已經開始制定人工智慧紅隊測試的標準。科技開發商也開始自行探索最佳做法。例如,Anthropic、Google、微軟和 OpenAI 成立了尖端模型論壇 (FMF),旨在制定人工智慧安全標準並在整個行業分享最佳實踐經驗。 

FMF 執行董事 Chris Meserole 表示,「紅隊測試可以成為評估模型可能帶來風險的良好起點。」 但是,他補充說,這遠不是「靈丹妙藥,這就是為什麼我們一直熱衷於支援開發其他評估、辨識和緩解技術來確保尖端人工智慧模型安全的原因。」 

換句話說,處於技術發展最尖端的人工智慧模型需要一系列策略,而不僅僅是從網路安全領域循環利用的工具——這種工具可以追溯到冷戰時期。

資料來源:

netizen
作者

一個老派的科技媒體工作者,對於最新科技動態、最新科技訊息的觀察報告。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則