ADVERTISEMENT
OpenAI 的 o3 系統在 ARC-AGI 基準測試中取得了 85% 的得分,遠高於之前 AI 的最佳得分 55%,並與人類平均得分相當。它在一項非常困難的數學測試中也取得了不錯的成績。
開發通用人工智慧(AGI)是所有主要 AI 研究實驗室的既定目標。乍看之下,OpenAI 似乎至少朝着這個目標邁出了重要一步。
儘管人們仍抱持著懷疑態度,但許多 AI 研究人員和開發人員認為情況發生了變化。對許多人來說,AGI 的前景現在看起來比預期的更真實、更緊迫、更接近。他們是對的嗎?
ADVERTISEMENT
泛化能力與智慧
要理解 o3 的結果意味著什麼,首先需要了解 ARC-AGI 測試的核心意義。從技術層面來說,這是一項測試 AI 系統在適應新事物時「樣本效率」的測試——即該系統需要看到多少個新情境的例子才能理解其運作方式。
像 ChatGPT(GPT-4)這樣的 AI 系統,樣本效率並不高。它是透過分析數百萬條人類文本的例子來進行「訓練」的,建立了一套關於哪些詞組合最可能出現的機率性「規則」。
結果是,它在常見任務中表現相當不錯。但在不常見的任務中,由於數據量(樣本量)較少,表現就會比較差。
ADVERTISEMENT
在 AI 系統能夠從少量示例中學習並以更高的樣本效率進行調整之前,它們將只能用於非常重複性的工作以及偶爾出現故障可以容忍的工作。
從有限的數據樣本中準確解決以前未知或新問題的能力被稱為泛化能力。它被廣泛認為是智慧的必要甚至基本要素。
ADVERTISEMENT
網格和模式
ARC-AGI 基準測試使用如下所示的小網格問題來測試樣本有效適應性。AI 需要找出將左側網格變成右側網格的模式。
每道題目提供三個範例以供學習。然後,AI 系統需要從這三個例子中總結出適用於第四個例子的「規則」。
ADVERTISEMENT
這與你可能在學校見過的智力測驗非常相似。
弱規則與適應
我們還不知道 OpenAI 是如何做到這一點的,但結果表明 o3 模型具有高度適應性。僅從幾個例子中,它就能找到可以泛化的規則。
為了找出一個模式,我們不應做出不必要的假設,也不應比實際需要的更具體。理論上,如果你能找到執行所需任務的「最弱」規則,那麼你就最大化了適應新情況的能力。
那麼,什麼是「最弱」規則?技術定義很複雜,但較弱的規則通常是那些可以用更簡單語句描述的規則。
在上述例子中,一個簡單的規則表達可能是:「任何具有突出的線條的形狀都會移動到該線條的末端,並且『覆蓋』它與其他形狀重疊的部分。」
搜尋思維鏈條?
雖然我們還不知道 OpenAI 是如何取得這一成果的,但似乎不太可能是專門為了找到最弱規則而刻意最佳化了 o3 系統。然而,要成功完成 ARC-AGI 任務,它必須能夠找到這些規則。
我們知道,OpenAI 從 o3 模型的一個通用版本開始(這與其他模型不同,因為它可以花更多時間來「思考」困難問題),然後針對 ARC-AGI 測試進行了專門訓練。
設計該基準測試的法國 AI 研究員 François Chollet 認為,o3 可能是透過探尋不同的「思維鏈」(描述解決任務的步驟)來實現的。然後,它會根據一些鬆散定義的規則或「啟發式」來選擇「最佳」規則。
這與 Google 的 AlphaGo 系統透過搜尋不同的可能走法序列來擊敗世界圍棋冠軍的方式「沒有什麼不同」。
你可以將這些思維鏈想像成適合這些例子的程序。當然,如果它像下圍棋的 AI 一樣,那麼它需要一個啟發式或鬆散的規則來決定哪個程序是最好的。
可以將這些思維鏈想像成適合這些例子的程序。當然,如果它像下圍棋的 AI 一樣,那麼它需要一個啟發式或鬆散的規則來決定哪個程序是最好的。
我們仍然不知道的事情
那麼問題是,這真的更接近 AGI 了嗎?如果 o3 就是這樣工作的,那麼底層模型可能不會比以前的模型好多少。
模型從語言中學到的概念可能不會比以前更適合泛化。相反,我們可能只是看到了一個更具泛化能力的「思維鏈」,它是通過額外訓練專門針對此測試的啟發式方法而找到的。一如既往,證明將在實踐中得到。
目前有關 o3 的一切幾乎都是未知的。OpenAI 僅限於向少數媒體展示,並將早期測試限制在少數研究人員、實驗室和 AI 安全機構中。
要真正了解 o3 的潛力,需要進行大量的工作,包括評估、了解其能力分佈、失敗頻率和成功頻率。
當 o3 最終發布時,我們將能更清楚地了解它是否能達到與普通人類大致相當的適應能力。
如果是這樣,它可能帶來巨大的、革命性的經濟影響,開啟一個自我改進加速智慧的新時代。我們將需要為 AGI 本身建立新的基準,並認真考慮應如何對其進行治理。
如果不是,這仍然是一個令人印象深刻的成果。然而,日常生活將保持不變。
ADVERTISEMENT