
ADVERTISEMENT
讓全球高中生聞之色變、絞盡腦汁的國際數學奧林匹克競賽(IMO),如今竟然被人工智慧(AI)給攻克了!Google DeepMind 團隊近期發表了一項重磅研究,宣布他們所開發的幾何解題系統 AlphaGeometry2,在 IMO 幾何難題測試中,成功解決了 84% 的題目(50 題中答對 42 題),其解題表現首次超越了 IMO 平均金牌得主的水平(50 題中平均答對 40.9 題)。
不僅如此,早在去年七月,AlphaGeometry 的前代系統 AlphaGeometry (AG1) 就已與 AlphaProof 這個基於強化學習的形式化數學推理新系統「聯手」,在當年的 IMO 競賽中首次達到銀牌得主的水平。如今,AlphaGeometry2 的問世,更象徵著 AI 在幾何解題領域取得了突破性的進展,其解題能力已超越人類頂尖數學菁英。
AlphaGeometry2 是 AlphaGeometry 的顯著改良版本。它是一個神經符號混合系統,其語言模型基於 Google 最新的 Gemini 模型,並從頭開始,以比前代系統多出一個數量級的合成數據進行訓練。這使得 AlphaGeometry2 模型能夠處理更具挑戰性的幾何問題,包括涉及物體運動和角度、比例或距離的方程式問題。
在系統架構方面,AlphaGeometry2 使用的符號引擎,其運算速度也比前代系統快了兩個數量級。面對全新的幾何問題時,AlphaGeometry2 更採用了一種新穎的知識共享機制,藉此實現不同搜尋樹的先進組合,以更有效率地解決更為複雜的幾何難題。
對於 AlphaGeometry2 的驚人表現,倫敦帝國理工學院數學家凱文·巴扎德(Kevin Buzzard)給予了高度評價,他預測:「我想,在不久的將來,電腦就能在 IMO 競賽中拿到滿分了。」
這項劃時代的研究成果,以 “Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2” 為題,已發表在預印本網站 arXiv 上,向全球學術界展示了 AI 在數學推理領域的巨大潛力。
更強大的數學推理能力,解題速度提升 300 倍
AlphaGeometry2(AG2)是由 Google DeepMind 開發的一款劃時代的神經符號混合 AI 系統,專門用於解決國際數學奧林匹克競賽(IMO)中的幾何難題。
AG2 巧妙地結合了語言模型(Neural)和符號推理引擎(Symbolic)的優勢,採用一種獨特的混合推理方法(neuro-symbolic approach)來處理複雜的幾何問題。相較於其前代系統 AlphaGeometry(AG1),AG2 在解題成功率、搜尋演算法、語言模型和符號推理等關鍵方面都取得了顯著的改進,使其解題能力首次超越 IMO 平均金牌得主的水平,堪稱 AI 發展史上的重大里程碑。
根據研究論文的描述,AlphaGeometry2 在原始 AlphaGeometry(AG1)的語言基礎上進行了大幅擴展,使其能夠處理更複雜、更廣泛的幾何問題,具體改進包括:
- 物體移動問題(Locus-type Problems): AlphaGeometry2 新增了與軌跡(locus)相關的謂詞,使 AI 能夠推理點、直線、圓等幾何物件的移動軌跡,進而解決更複雜的幾何運動問題。
- 線性方程式問題(Linear Equations): AlphaGeometry2 現在可以解析涉及角度、比例和距離的線性方程式,使其能夠處理更多與數量關係相關的幾何問題。
- 全新的幾何謂詞(Predicates): AlphaGeometry2 的語言新增了多個幾何謂詞,進一步擴展了其幾何推理能力,使其能夠應對更複雜的幾何圖形和關係。
透過這些擴展,AlphaGeometry2 語言的覆蓋率(coverage rate)從 66% 大幅提升至 88%,使其能夠處理更廣泛的 IMO 幾何題目,解題範圍與能力都得到了進步。
為了更有效地訓練 AlphaGeometry2,DeepMind 團隊更投入了大量的資料擴充工作。從圖表中可見,相較於 AlphaGeometry,AlphaGeometry2 的訓練數據包含更複雜、更長的幾何問題,在各種問題類型範例的分布上也更加均衡,且在包含輔助線證明的題目與不包含輔助線證明的題目之間,也達到了更均衡的比例。這些精心設計的訓練數據,顯著提升了 AlphaGeometry2 的解題能力與泛化性。
更值得一提的是,AlphaGeometry2 採用了 Google 最先進的 Gemini 語言模型。相較於前代系統 AlphaGeometry,Gemini 模型展現出更強大的數學推理能力。這個語言模型被用於預測幾何構造的關鍵步驟(例如輔助線的添加、角度的計算等),並協助 AI 系統生成完整的解題步驟。為了訓練 Gemini 語言模型的數學知識庫,DeepMind 團隊更投入了高達 3 億條自動生成的定理與證明資料,大幅擴展了 AI 的數學知識廣度與深度。
在演算法方面,AlphaGeometry2 也進行了重大革新。研究團隊開發了一種新型的搜尋演算法,名為「共享知識搜尋樹」(Shared Knowledge Search Trees,SKEST)。這種演算法引入了創新的知識共享機制,能將多個搜尋樹有效地結合在一起,並在不同搜尋路徑之間共享已驗證的數學推理結果。相較於 AlphaGeometry 僅採用單一搜尋策略,AlphaGeometry2 的 SKEST 演算法,顯著提升了 AI 系統在複雜 IMO 幾何難題中的求解能力與效率。
更令人驚豔的是,相較於 AlphaGeometry 的符號引擎,AlphaGeometry2 在幾何問題的求解速度上,竟然提升了高達 300 倍之多!此外,AlphaGeometry2 更新增了處理「雙點」幾何問題的能力,使其能夠解決一些需要建構多個相交點才能解答的複雜幾何難題,解題能力更上一層樓。
探索通用人工智慧之路?AlphaGeometry2 的啟示
儘管 AlphaGeometry2 已經取得了突破性的進展,但研究團隊也坦承,這套系統仍存在一定的局限性。在 AlphaGeometry2 尚未能成功解決的 IMO 題目中,有 6 題是因為題目涉及變數點的數量過多、不等式或非線性方程式等複雜數學概念,而這些類型的問題,目前 AlphaGeometry2 的幾何語言尚無法完全支援。另外有 2 題題目,則是因為牽涉到更進階的幾何技巧(例如反演幾何、投影幾何、根軸法等),而這些高階技巧,目前也尚未在 AlphaGeometry2 的符號引擎中實作。
DeepMind 團隊表示,未來 AlphaGeometry 的改進方向,將包括擴展系統的數學語言,使其能夠處理涉及不等式和非線性方程式的數學問題。研究團隊認為,這些能力對於 AI 系統「完全解決幾何問題」至關重要。此外,如何進一步改進自動數學公式化(Auto-Formalization)技術,使 AI 能夠更精準地從自然語言解析複雜的數學問題,也將是 DeepMind 團隊未來研究的重點方向之一。
更令人振奮的是,研究團隊發現,AlphaGeometry2 不僅能夠生成解決幾何問題所需的輔助線等幾何構造(auxiliary constructions),還能推導出完整的幾何證明(full proofs)。這項發現暗示著,當前最先進的語言模型,或許有潛力在無需外部工具(例如符號推理引擎)輔助的情況下,獨立完成複雜的數學推理與證明。如果 DeepMind 團隊的設想能夠實現,這些解題能力,未來可能成為通用人工智慧(AGI)的重要組成部分,為 AGI 的發展開啟全新的可能性。
AlphaGeometry2 的成功,或許也預示著,將符號操作與神經網路這兩種看似截然不同的 AI 方法巧妙結合,將會是探索可泛化人工智慧的一條充滿希望的道路。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!