AI 擊敗人類數學天才！DeepMind「AlphaGeometry2」攻克奧數幾何難題，高中生也頭疼的 IMO 難題被 AI 征服

讓全球高中生聞之色變、絞盡腦汁的國際數學奧林匹克競賽（IMO），如今竟然被人工智慧（AI）給攻克了！Google DeepMind 團隊近期發表了一項重磅研究，宣布他們所開發的幾何解題系統 AlphaGeometry2，在 IMO 幾何難題測試中，成功解決了 84% 的題目（50 題中答對 42 題），其解題表現首次超越了 IMO 平均金牌得主的水平（50 題中平均答對 40.9 題）。

不僅如此，早在去年七月，AlphaGeometry 的前代系統 AlphaGeometry (AG1) 就已與 AlphaProof 這個基於強化學習的形式化數學推理新系統「聯手」，在當年的 IMO 競賽中首次達到銀牌得主的水平。如今，AlphaGeometry2 的問世，更象徵著 AI 在幾何解題領域取得了突破性的進展，其解題能力已超越人類頂尖數學菁英。

AlphaGeometry2 是 AlphaGeometry 的顯著改良版本。它是一個神經符號混合系統，其語言模型基於 Google 最新的 Gemini 模型，並從頭開始，以比前代系統多出一個數量級的合成數據進行訓練。這使得 AlphaGeometry2 模型能夠處理更具挑戰性的幾何問題，包括涉及物體運動和角度、比例或距離的方程式問題。

在系統架構方面，AlphaGeometry2 使用的符號引擎，其運算速度也比前代系統快了兩個數量級。面對全新的幾何問題時，AlphaGeometry2 更採用了一種新穎的知識共享機制，藉此實現不同搜尋樹的先進組合，以更有效率地解決更為複雜的幾何難題。

對於 AlphaGeometry2 的驚人表現，倫敦帝國理工學院數學家凱文·巴扎德（Kevin Buzzard）給予了高度評價，他預測：「我想，在不久的將來，電腦就能在 IMO 競賽中拿到滿分了。」

這項劃時代的研究成果，以 “Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2” 為題，已發表在預印本網站 arXiv 上，向全球學術界展示了 AI 在數學推理領域的巨大潛力。

更強大的數學推理能力，解題速度提升 300 倍

AlphaGeometry2（AG2）是由 Google DeepMind 開發的一款劃時代的神經符號混合 AI 系統，專門用於解決國際數學奧林匹克競賽（IMO）中的幾何難題。

AG2 巧妙地結合了語言模型（Neural）和符號推理引擎（Symbolic）的優勢，採用一種獨特的混合推理方法（neuro-symbolic approach）來處理複雜的幾何問題。相較於其前代系統 AlphaGeometry（AG1），AG2 在解題成功率、搜尋演算法、語言模型和符號推理等關鍵方面都取得了顯著的改進，使其解題能力首次超越 IMO 平均金牌得主的水平，堪稱 AI 發展史上的重大里程碑。

根據研究論文的描述，AlphaGeometry2 在原始 AlphaGeometry（AG1）的語言基礎上進行了大幅擴展，使其能夠處理更複雜、更廣泛的幾何問題，具體改進包括：

物體移動問題（Locus-type Problems）： AlphaGeometry2 新增了與軌跡（locus）相關的謂詞，使 AI 能夠推理點、直線、圓等幾何物件的移動軌跡，進而解決更複雜的幾何運動問題。
線性方程式問題（Linear Equations）： AlphaGeometry2 現在可以解析涉及角度、比例和距離的線性方程式，使其能夠處理更多與數量關係相關的幾何問題。
全新的幾何謂詞（Predicates）： AlphaGeometry2 的語言新增了多個幾何謂詞，進一步擴展了其幾何推理能力，使其能夠應對更複雜的幾何圖形和關係。

透過這些擴展，AlphaGeometry2 語言的覆蓋率（coverage rate）從 66% 大幅提升至 88%，使其能夠處理更廣泛的 IMO 幾何題目，解題範圍與能力都得到了進步。

為了更有效地訓練 AlphaGeometry2，DeepMind 團隊更投入了大量的資料擴充工作。從圖表中可見，相較於 AlphaGeometry，AlphaGeometry2 的訓練數據包含更複雜、更長的幾何問題，在各種問題類型範例的分布上也更加均衡，且在包含輔助線證明的題目與不包含輔助線證明的題目之間，也達到了更均衡的比例。這些精心設計的訓練數據，顯著提升了 AlphaGeometry2 的解題能力與泛化性。

更值得一提的是，AlphaGeometry2 採用了 Google 最先進的 Gemini 語言模型。相較於前代系統 AlphaGeometry，Gemini 模型展現出更強大的數學推理能力。這個語言模型被用於預測幾何構造的關鍵步驟（例如輔助線的添加、角度的計算等），並協助 AI 系統生成完整的解題步驟。為了訓練 Gemini 語言模型的數學知識庫，DeepMind 團隊更投入了高達 3 億條自動生成的定理與證明資料，大幅擴展了 AI 的數學知識廣度與深度。

在演算法方面，AlphaGeometry2 也進行了重大革新。研究團隊開發了一種新型的搜尋演算法，名為「共享知識搜尋樹」（Shared Knowledge Search Trees，SKEST）。這種演算法引入了創新的知識共享機制，能將多個搜尋樹有效地結合在一起，並在不同搜尋路徑之間共享已驗證的數學推理結果。相較於 AlphaGeometry 僅採用單一搜尋策略，AlphaGeometry2 的 SKEST 演算法，顯著提升了 AI 系統在複雜 IMO 幾何難題中的求解能力與效率。

更令人驚豔的是，相較於 AlphaGeometry 的符號引擎，AlphaGeometry2 在幾何問題的求解速度上，竟然提升了高達 300 倍之多！此外，AlphaGeometry2 更新增了處理「雙點」幾何問題的能力，使其能夠解決一些需要建構多個相交點才能解答的複雜幾何難題，解題能力更上一層樓。

探索通用人工智慧之路？AlphaGeometry2 的啟示

儘管 AlphaGeometry2 已經取得了突破性的進展，但研究團隊也坦承，這套系統仍存在一定的局限性。在 AlphaGeometry2 尚未能成功解決的 IMO 題目中，有 6 題是因為題目涉及變數點的數量過多、不等式或非線性方程式等複雜數學概念，而這些類型的問題，目前 AlphaGeometry2 的幾何語言尚無法完全支援。另外有 2 題題目，則是因為牽涉到更進階的幾何技巧（例如反演幾何、投影幾何、根軸法等），而這些高階技巧，目前也尚未在 AlphaGeometry2 的符號引擎中實作。

DeepMind 團隊表示，未來 AlphaGeometry 的改進方向，將包括擴展系統的數學語言，使其能夠處理涉及不等式和非線性方程式的數學問題。研究團隊認為，這些能力對於 AI 系統「完全解決幾何問題」至關重要。此外，如何進一步改進自動數學公式化（Auto-Formalization）技術，使 AI 能夠更精準地從自然語言解析複雜的數學問題，也將是 DeepMind 團隊未來研究的重點方向之一。

更令人振奮的是，研究團隊發現，AlphaGeometry2 不僅能夠生成解決幾何問題所需的輔助線等幾何構造（auxiliary constructions），還能推導出完整的幾何證明（full proofs）。這項發現暗示著，當前最先進的語言模型，或許有潛力在無需外部工具（例如符號推理引擎）輔助的情況下，獨立完成複雜的數學推理與證明。如果 DeepMind 團隊的設想能夠實現，這些解題能力，未來可能成為通用人工智慧（AGI）的重要組成部分，為 AGI 的發展開啟全新的可能性。

AlphaGeometry2 的成功，或許也預示著，將符號操作與神經網路這兩種看似截然不同的 AI 方法巧妙結合，將會是探索可泛化人工智慧的一條充滿希望的道路。