跨模態AI的安全性比單模態更難搞:15 個 AI 模型在SIUO跑分只有 3 個得分超 50%

跨模態AI的安全性比單模態更難搞:15 個 AI 模型在SIUO跑分只有 3 個得分超 50%

隨著生成式AI日益融入人類生活的各個方面,確保這些系統的安全性和道德對齊變得至關重要。而在過去以往關於安全的研究,主要集中在單一模態的威脅上,像是生成文字、生成圖片這些單一的模態。但研究人員指出,這些研究可能不足以應對跨模態交互的複雜性。

根據最新發表在 arXiv 的研究論文指出,包括 GPT-4V、GPT-4o 和 Gemini 1.5 在內的大部分主流多模態 AI 模型,處理使用者的多模態輸入(例如一起輸入圖片和文字內容)之後,輸出結果並不安全。

跨模態AI的安全性比單模態更難搞:15 個 AI 模型在SIUO跑分只有 3 個得分超 50%

這項研究標題為《跨模態安全調整》(Cross-Modality Safety Alignment),提出了一個全新的「安全輸入但不安全輸出」(SIUO)議題:涉及道德、危險行為、自殘、侵犯隱私、資訊誤讀、宗教信仰、歧視和刻板印象、爭議性話題以及非法活動和犯罪等 9 個安全領域。

跨模態AI的安全性比單模態更難搞:15 個 AI 模型在SIUO跑分只有 3 個得分超 50%

研究人員說,大型視覺語言模型(LVLM)在接收多模態輸入時很難識別 SIUO 類型的安全問題,在提供安全響應方面也遇到困難。

在接受測試的 15 個 LVLM 中,只有 GPT-4v(53.29%)、GPT-4o(50.9%)和 Gemini 1.5(52.1%)的得分高於 50%。

研究人員表示為瞭解決這個問題,需要開發 LVLM,以便將所有模式的見解結合起來,形成對情景的統一理解。它們還需要能夠掌握和應用現實世界的知識,如文化敏感性、道德考慮因素和安全隱患等。

研究人員還指出,LVLMs 需要能夠通過對圖像和文字資訊的綜合推理,理解使用者的意圖,即使文字中沒有明確說明。

跨模態AI的安全性比單模態更難搞:15 個 AI 模型在SIUO跑分只有 3 個得分超 50%

跨模態AI的安全性比單模態更難搞:15 個 AI 模型在SIUO跑分只有 3 個得分超 50%

 

跨模態AI的安全性比單模態更難搞:15 個 AI 模型在SIUO跑分只有 3 個得分超 50%

參考地址

 

 

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則