AI 進化速度驚人，評做測試方式也要進步！挑戰數學奧賽、人類終極考試，揭開人工智慧真實能力！

儘管 AI 開發者具有專業知識，但他們並不總是知道自己最先進的系統能做什麼——至少一開始不知道。為了弄清楚這些能力，系統會接受一系列測試，通常稱為「評估」（evaluations，簡稱 evals），以測試其極限。然而，由於該領域的快速進步，現在這些AI系統經常在許多熱門測試中獲得高分，包括 SAT 和美國律師資格考試，這使得判斷它們的進步速度變得更加困難。

因此，由公司、非營利組織和政府創造的一系列更具挑戰性的評估應運而生。然而，即使在最先進的評估中，AI 系統也取得了驚人的進展。11 月，非營利研究機構 Epoch AI 宣布了一套與頂尖數學家合作開發的極具挑戰性的數學問題，稱為 FrontierMath，目前可用的模型得分僅為 2%。僅僅一個月後，OpenAI 最新發布的 o3 模型就達到了 25.2% 的得分，Epoch 主任海梅‧塞維利亞（Jaime Sevilla）形容這「遠遠超出我們團隊預期」。

在這種快速進展中，這些新的評估可以幫助世界了解先進的 AI 系統可以做什麼，而且，由於許多專家擔心未來的系統可能會在網路安全和生物恐怖主義等領域構成嚴重風險，如果未來出現此類威脅性能力，這些評估可以作為早期預警信號。

比想像中更難

在 AI 發展的早期，能力是透過評估系統在特定任務中的表現來衡量的，例如圖像分類或是玩遊戲，從一個基準測試設立到 AI 匹敵或超越人類表現的時間通常以「年」為單位計算。例如，自 2010 年由李飛飛教授及其團隊設立的 ImageNet 大規模視覺辨識挑戰以來，AI 系統花了五年才超越人類。而直到 2017 年，Google DeepMind 的 AlphaGo 才擊敗了圍棋世界排名第一的選手，這距離第一個嘗試這項任務的程式誕生已經過去了近 50 年。

但是近年來，從基準測試設立到達到飽和的時間最近顯著縮短。例如，GLUE 基準測試的目的是透過完成判斷兩個句子是否等效或確定上下文中的代詞的正確含義等任務來測試 AI 理解自然語言的能力，該基準於 2018 年首次亮相。一年後，它就被認為已被解決。作為回應，一個更難的版本 SuperGLUE 於 2019 年創建，而且在兩年內，AI 就能夠在其任務中達到人類的表現。

評估有多種形式，其複雜性隨著模型能力的增長而增長。 幾乎所有主要的 AI 實驗室現在都在發布前對其模型進行「紅隊」測試，系統地測試它們產生有害輸出、繞過安全措施或進行其他不良行為（如欺騙）的能力。去年，包括 OpenAI、Anthropic、Meta 和 Google 在內的公司向拜登政府做出自願承諾，將其模型進行內部和外部紅隊測試，「包括濫用、社會風險和國家安全問題等領域」。

其他測試評估特定能力，例如程式寫作，或評估模型進行潛在危險行為（如說服、欺騙和大規模生物攻擊）的能力和傾向。

也許當代最受歡迎的基準測試是測量大規模多任務語言理解（Measuring Massive Multitask Language Understanding，簡稱 MMLU），該測試包含約 16,000 道多選題，涵蓋哲學、醫學、法律等學術領域。OpenAI 於 5 月推出的 GPT-4o 獲得了 88％的得分，而該公司最新的 o1 模型得分高達 92.3％。由於這些大型測試集有時包含答案標記錯誤的問題，因此通常不可能達到 100%，專注於降低先進 AI 系統危險能力的 AI 安全非營利組織 Apollo Research 的主管兼聯合創始人馬里烏斯·霍布漢（Marius Hobbhahn）解釋道：「超過某個點之後，更高能力的模型不會帶來顯著更高的分數。」

霍布漢說，設計評估來衡量先進 AI 系統的能力「難得驚人」——特別是因為目標是引出和衡量系統的實際潛在能力，而多項選擇題等任務只是衡量這種能力的一個指標。「你希望以科學嚴謹的方式設計它，但这通常需要权衡现实主义，因为现实世界通常不像实验室环境，」他说。另一個挑戰是數據污染，當評估的答案包含在 AI 的訓練數據中時，就會發生這種情況，這使得它可以根據訓練數據中的模式而不是通過第一性原理進行推理來重現答案。

另一個問題是，當「擁有 AI 模型的人有動力根據評估進行訓練，或者模型本身決定針對評估所衡量的內容而不是預期內容」時，評估可能會被「玩弄」，霍布漢說。

新一波挑戰

為應對這些挑戰，科學家正在建構新的，更加複雜的新測試方法。

Epoch AI 的 FrontierMath 基準測試包含約 300 道原創數學問題，涵蓋數學大部分的主要分支。它是由 60 多位頂尖數學家合作創建的，其中包括菲爾茲獎得主陶哲軒。Epoch 副主任塔瑪伊·貝西羅格魯（Tamay Besiroglu）說，這些問題的難度各不相同，其中約 25% 的問題的難度與國際數學奧林匹克競賽的水準相當，因此「極具天賦」的高中生理論上可以解決這些問題，前提是他們具備必要的「創造性洞察力」和「精確計算」能力。其他的問題則需要「數學研究生的水準」才能解決，最具挑戰性的 25％則來自該特定主題研究的「尖端」，這意味著只有當今的頂尖專家能解答，即使是他們也可能需要幾天時間。

正確答案往往是 30 位數的數字，因此無法僅透過測試所有可能的答案來推導出解決方案。為避免數據污染，Epoch 並未公開發表這些問題（只有公開少數幾題作為範例，且不屬於實際基準測試）。即使有同行評審過程，貝西羅格魯預估該基準測試中約有 10％的問題解答存在錯誤——與其他機器學習基準測試的錯誤率相當。「數學家也會犯錯誤」，他說，並指出他們正在努力將錯誤率降至 5％。

評估數學推理可能特別有用，因為能夠解決這些問題的系統可能還能做更多事情。儘管貝西羅格魯謹慎避免過分強調「數學是根本的東西」，他預計能夠解決 FrontierMath 基準測試的任何系統在「幾年內」將能接近自動化科學和工程許多領域的水準。

另一項旨在延長使用壽命的基準測試是被不祥地命名為「人類最後的考試」（Humanity’s Last Exam），由非營利組織 AI 安全中心與營利性公司 Scale AI 合作創建。該考試目標包含約 FrontierMath 20 至 50 倍的問題數量，同時涵蓋物理、生物學及電機工程等領域，Scale AI 的研究總監夏默‧岳（Summer Yue）表示。問題將從學術界及其他地方眾包而來。要被納入，一個問題必須無法被所有現有模型解答。該基準測試計劃於 2024 年底或 2025 年初正式啟用。

第三個值得注意的基準測試是 RE-Bench，目的是模擬現實世界中的機器學習工作。它由專門從事模型評估及威脅研究的非營利組織 METR 創建，並在七個工程任務中測試人類和尖端 AI 系統。人類和 AI 代理都被賦予有限的時間來完成任務；雖然人類在大多數任務上的表現都可靠地優於當前的 AI 代理，但在僅考慮前兩個小時內的表現時，情況看起來就不同了。METR 的技術人員亞爾馬·維克（Hjalmar Wijk）解釋說，根據代理的不同，當前的 AI 代理在 30 分鐘到 2 小時之間表現最佳。超過這段時間後，它們往往會「陷入困境」，他說，因為 AI 代理可能會在早期犯錯，然後「難以像人類那樣調整」。

「當我們開始這項工作時，我們預計會看到 AI 代理只能解決一定規模的問題，超過這個規模，它們就會更徹底地失敗，或者成功的可能性極低，」維克說。事實證明，只要有足夠的時間和資源，它們通常可以接近基準測試中測試的中位數人類工程師的表現。「AI 代理在這方面出奇地擅長，」他說。在一項特定任務中——該任務涉及優化代碼以在專用硬體上更快地運行——AI 代理實際上優於最優秀的人類，儘管 METR 的研究人員指出，他們測試中包含的人類可能並不代表人類表現的巔峰。

這些結果並不意味著當前的 AI 系統可以自動化 AI 研究和開發。「最終，這將不得不被更難的評估所取代，」維克說。但考慮到 AI 研究自動化日益被視為國家安全問題，例如拜登總統於 10 月頒布的《AI 國家安全備忘錄》（National Security Memorandum on AI），未來在這項基準測試中表現出色的模型可能會改進自身，進一步加劇人類研究人員對其的失控。

即使 AI 系統在許多現有測試中表現出色，它們仍然難以完成對人類來說很簡單的任務。「如果在提示中將問題描述整齊地呈現在盤子上，它們可以解決複雜的封閉性問題，但它們難以連貫地串聯起長的、自主的、解決問題的序列，而這對一個人來說很容易，」現在已經離開公司的OpenAI 聯合創始人安德烈·卡帕西（Andrej Karpathy））在 X 上回應 FrontierMath 發表的文章中寫道。

METR 的 AI 政策研究員麥可·陳（Michael Chen）提到 SimpleBench 作為一個由普通高中生都能輕鬆完成的問題組成的基準測試，但在這上面領先的模型卻表現掙扎。「我認為在簡單任務方面仍有很多工作可以做」，麥可·陳表示。儘管對基準測試究竟是測試基礎推理還是僅僅測試知識存在爭論，麥可·陳認為仍然有理由使用 MMLU 和去年的「研究生級 Google 無法搜尋問題與解答基準測試」（Graduate-Level Google-Proof Q&A Benchmark，簡稱 GPQA）。這是少數幾個尚未飽和的最近基準之一，意味著 AI 模型尚未穩定地取得高分，因此仍有進步空間。他指出，即使只是知識測試，「測試知識仍然非常有用」。

一項試圖超越僅僅測試知識回憶的評估是 ARC-AGI，它是由著名 AI 研究員佛朗索瓦·蕭萊（François Chollet）創建的，用於測試 AI 解決新推理難題的能力。例如，一個難題可能顯示幾個輸入與輸出網格的例子，其中的形狀根據某些隱藏規則移動或變色。AI 隨後會得到一個新的輸入網格，並需從零開始推導出輸出應該看起來像什麼，推測底層規則。儘管這些難題對大多數人類而言相對簡單，但 AI 系統歷來在此表現掙扎。然而，近期突破表明情況正在改變：OpenAI 的 o3 模型在此基準測試中的得分顯著高於此前的模型，Chollet 表示這代表了「在適應性與泛化能力上的真正突破」。

對更好評估的迫切需求

新的評估方式（無論是簡單還是複雜、結構化還是基於「直覺」的測試）每天都在推出。AI 政策越來越依賴這些評估，不僅因為它們正成為如歐盟《人工智慧法案》等法律的要求（該法案仍在制定過程中），也因為主要 AI 實驗室（如 OpenAI、Anthropic 和 Google DeepMind）已自願承諾，根據評估是否識別出特別令人擔憂的危害，來暫停模型的發布或採取減輕潛在危害的行動。

基於這些自願承諾，美國與英國的 AI 安全研究所已經開始在前沿模型部署之前進行評估。10 月，他們聯合發布了對 Anthropic 的升級版 Claude 3.5 Sonnet 模型的研究結果，特別關注其在生物學、網路安全及軟體與 AI 開發方面的能力，以及其內建安全措施的效能。他們發現，「在大多數情況下，美國 AI 安全研究所測試的內建安全措施都被繞過，這意味著模型給出了應該被阻止的答案。」他們指出，這與先前對其他 AI 系統漏洞的研究結果一致。12 月，兩所研究機構針對 OpenAI 的 o1 模型發表了類似的發現。

然而，目前還沒有強制性義務要求領先模型接受協力廠商測試。霍布漢說，這種義務的存在「基本上是理所當然的」，他認為實驗室在評估方面面臨著不正當的激勵，因為「他們發現的問題越少越好」。他還指出，強制性協力廠商審計在金融等其他行業中很常見。

雖然一些營利性公司（如 Scale AI）確實為其客戶進行獨立評估，但大多數公共評估是由非營利組織和政府創建的，霍布漢認為這是由於「歷史路徑依賴」的結果。

他說：「我不認為讓慈善機構實際上為市值數十億美元的公司補貼成本是一個好的世界。我認為正確的方式應該是，最終所有這些成本都由實驗室自行承擔，因為風險是它們創造的。」

Epoch 的貝西羅格魯指出，AI 評估「並不便宜」，他說，每個模型的成本很快就會高達 1,000 美元到 10,000 美元之間，特別是如果你運行評估的時間較長，或者你多次運行評估以提高結果的確定性。雖然實驗室有時會透過支付其營運成本來補貼協力廠商評估，但 Hobbhahn 指出，這並不包括實際開發評估的更大成本。儘管如此，他預計協力廠商評估將成為未來的常態，因為實驗室將能夠指出它們來證明其在安全測試模型方面的盡職調查，進而降低其責任。

隨著 AI 模型的快速進步，評估方式也在努力跟上。先進的新基準測試——評估如高階數學推理、新穎問題解決能力及 AI 研究自動化——正在取得進展，但設計有效的評估仍然充滿挑戰、成本高昂，且相較於其作為檢測危險能力早期預警器的重要性，資金明顯不足。隨著主要實驗室每隔幾個月就推出更強大的模型，評估前沿能力的新測試需求比以往更為迫切。正如維克所說，在評估飽和之前，「我們需要準備更難的評估，以確保我們能正確評估風險」。

延伸閱讀：GPT-4o 新突破！AI 僅需兩小時訪談，輕鬆複製人類性格，準確率高達 85%
延伸閱讀：ChatGPT攻破圖靈測試，是時候找個新方法評估AI技術了
延伸閱讀：AI比你想像的還要笨，MIT 研究揭示 AI 認知的缺陷
資料來源：time