提示注入攻擊成最新威脅,微軟懸賞10,000元美金破解 AI 郵件系統漏洞!

提示注入攻擊成最新威脅,微軟懸賞10,000元美金破解 AI 郵件系統漏洞!

ADVERTISEMENT

微軟及其合作夥伴向 AI 駭客發起挑戰,要求他們以提示注入攻擊的方式,破解一個模擬的 LLM 整合電子郵件客戶端,獲勝團隊將共享 10,000 美元的獎金。

由微軟、澳洲科學技術研究院和蘇黎世聯邦理工學院贊助的 LLMail-Inject 挑戰賽,建立了一個「擬真」(但微軟表示並非真實)的 LLM 電子郵件服務。這個模擬服務使用大型語言模型來處理電子郵件使用者的請求並生成回應,它還可以生成 API 呼叫來代表使用者發送電子郵件。

作為週一開始的挑戰的一部分,參與者將扮演攻擊者,向使用者發送電子郵件。此處的目標是欺騙 LLMail 服務執行使用者非預期的指令,進而洩露數據或執行其他不應執行的惡意行為。

攻擊者可以在電子郵件正文中撰寫任何內容,但他們無法看到模型的輸出。

收到電子郵件後,使用者接著與 LLMail 服務互動,閱讀訊息、向 LLM 提問(如「更新一下有關 Project X 的資訊」),或指示它總結所有與該主題相關的電子郵件。這會促使服務從虛擬資料庫中檢索相關電子郵件。

該服務配備了多種提示注入防禦措施,攻擊者的目標是繞過這些防禦措施,並精心設計一個提示,創建一個能誘騙模型執行或洩露其未被設計執行之操作的提示。

隨著各大機構和開發者構建基於 LLM 的應用程式、人工智慧助手與聊天機器人等服務,允許這些模型直接與使用者設備互動、總結 Slack 訊息、或在人力資源審核求職履歷之前篩選求職者等功能,這類威脅已成為現實生活中的重大隱患。

微軟對於 AI 聊天機器人被數據竊賊劫持可能導致的問題深有體會。今年早些時候,微軟修復了一系列影響 Copilot 的漏洞。這些漏洞允許攻擊者透過連結一系列專屬於 LLM 的攻擊(始於提示注入)竊取使用者的電子郵件及其他個人數據。

紅隊專家約翰·雷伯格(Johann Rehberger)在今年一月向微軟披露了這些漏洞,並曾警告微軟,Copilot 容易受「零點擊圖片算繪」的攻擊。

LLMail-Inject 挑戰的模擬電子郵件服務內建以下幾種防禦措施:

  • Spotlighting:透過加入特殊分隔符、將數據編碼(如使用 Base64)或在數據的每個標記前添加特殊標記等方法,對提供給 LLM 的數據(非指令)進行「標記」。
  • PromptShield:使用一個黑盒分類器來檢測提示注入,確保惡意提示被攔截。
  • LLM-as-a-judge:依賴 LLM 本身的智慧來評估提示並檢測攻擊,而非依賴訓練的分類器。
  • TaskTracker:透過分析模型的內部狀態來檢測任務漂移。此方法會先在使用者向 LLM 提出提示時執行一次,然後在模型處理外部數據時再次執行,通過比較兩次狀態來檢測漂移。

此外,挑戰中還有一種變體,將這些防禦措施中的任意一項或多項疊加,要求攻擊者用單一提示繞過所有防禦。

參加挑戰的方式是使用 GitHub 帳戶登入官方挑戰網站,並建立一支由 1 至 5 名成員組成的團隊。比賽於 12 月 9 日 11:00 UTC 開始,至 1 月 20 日 11:59 UTC 結束。

主辦方將展示即時積分榜及評分細節,並向排名前四的隊伍分別頒發 4,000 美元、3,000 美元、2,000 美元及 1,000 美元的獎金。

netizen
作者

一個老派的科技媒體工作者,對於最新科技動態、最新科技訊息的觀察報告。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則