研究警告AI會有欺騙行為是「天性如此」，專家呼籲強化監管措施

研究人員對人工智慧系統從事欺騙行為的可能性提出了警告，這可能會產生嚴重的社會影響。他們強調，需要採取強有力的監管措施來有效管理這些風險。

許多人工智慧（AI）系統，即使是那些被設計成樂於助人、實事求是的系統，也已經學會了如何欺騙人類。在最近發表於Patterns雜誌的一篇評論文章中，研究人員強調了人工智慧欺騙行為的危險性，並敦促各國政府盡快制定強有力的法規來降低這些風險。

第一作者、麻省理工學院人工智慧存在安全博士後彼得．S．帕克（Peter S. Park）說：「人工智慧開發人員對造成欺騙等不良人工智慧行為的原因並不十分瞭解。但一般來說，我們認為人工智慧欺騙行為的產生是因為基於欺騙的策略被證明是在特定人工智慧訓練任務中表現出色的最佳方式。欺騙有助於它們實現目標。」

Park 及其同事分析了相關文獻，重點研究了人工智慧系統傳播虛假資訊的方式--通過學習欺騙，系統地學會操縱他人。

研究人員在分析中發現的最顯著的人工智慧欺騙例子是 Meta 公司的 CICERO，這是一個專門用來玩「外交」遊戲的人工智慧系統。儘管 Meta 公司聲稱它訓練 CICERO「基本上是誠實和樂於助人的」，並且在玩遊戲時「從不故意背叛」人類盟友，但該公司隨其科學論文一起發表的資料顯示，CICERO 玩得並不公平。

▲ Meta 的 CICERO 在外交遊戲中的欺騙示例。資料來源：Patterns/Park Goldstein et al.

Park 說：「我們發現，Meta 的人工智慧學會了欺騙。雖然 Meta 成功地訓練其人工智慧在外交遊戲中獲勝--CICERO 在參加過不止一次遊戲的人類玩家中名列前 10%，但 Meta 卻未能訓練其人工智慧以誠實的方式獲勝。」

其他人工智慧系統也展示了在與人類職業玩家進行的德州撲克遊戲中虛張聲勢的能力，在戰略遊戲《星海爭霸 II》中偽造攻擊以擊敗對手的能力，以及在經濟談判中歪曲自己的偏好以佔上風的能力。

Park 補充說，雖然人工智慧系統在遊戲中作弊看似無害，但這可能會導致「人工智慧欺騙能力的突破」，並在未來演變成更高級的人工智慧欺騙形式。

研究人員發現，一些人工智慧系統甚至學會了欺騙旨在評估其安全性的測試。在一項研究中，數位模擬器中的人工智慧生物「裝死」，以騙過為消除快速複製的人工智慧系統而設計的測試。通過有計畫地欺騙人類開發人員和監管機構對其進行的安全測試，欺騙性人工智慧會讓我們人類陷入虛假的安全感。

▲ GPT-4 完成驗證碼任務。圖片來源：Patterns/Park Goldstein et al.

帕克警告說，欺騙性人工智慧的主要近期風險包括使敵對行為者更容易實施欺詐和篡改選舉。他說，最終，如果這些系統能夠完善這種令人不安的技能組合，人類可能會失去對它們的控制。

「作為一個社會，我們需要儘可能多的時間來為未來人工智慧產品和開源模型更先進的欺騙能力做好準備，」Park 說。「隨著人工智慧系統的欺騙能力越來越先進，它們給社會帶來的危險也將越來越嚴重。」

雖然 Park 和他的同事們認為社會還沒有正確的措施來解決人工智慧欺騙問題，但他們感到鼓舞的是，政策制定者已經通過歐盟人工智慧法案和拜登總統的人工智慧行政命令等措施開始認真對待這個問題。但 Park 說，鑑於人工智慧開發人員尚不具備控制這些系統的技術，旨在減少人工智慧欺騙行為的政策能否得到嚴格執行還有待觀察。

「如果禁止人工智慧欺騙在當前政治上不可行，我們建議將欺騙性人工智慧系統歸類為高風險，」Park 說。