超越《寶可夢》？研究人員以《超級瑪利歐》為AI新基準，揭示即時反應挑戰推理模型

當前人工智慧（AI）發展日新月異，各界不斷尋找更有效且具代表性的基準測試，以評估AI模型的真實能力。繼《寶可夢》之後，有研究團隊認為，經典遊戲《超級瑪利歐兄弟》（Super Mario Bros.）可能是一個更具挑戰性的新選擇。加州大學聖地牙哥分校（University of California, San Diego）郝人工智能實驗室（Hao AI Lab）近期便進行了一項實驗，將多個知名AI模型投入《超級瑪利歐兄弟》的即時遊戲環境中，測試其表現。

根據實驗結果，Anthropic 的 Claude 3.7 模型表現最為出色，其次為 Claude 3.5。相較之下，Google 的 Gemini 1.5 Pro 與 OpenAI 的 GPT-4o 在此項測試中則顯得力不從心。值得注意的是，本次實驗所使用的《超級瑪利歐兄弟》版本並非完全還原1985年的初代版本，而是在模擬器環境下運行，並整合 GamingAgent 框架，以便讓AI模型能夠控制遊戲中的瑪利歐角色。

Hao AI Lab 自行開發的 GamingAgent 框架，主要負責向AI模型提供如「若偵測到障礙物或敵人接近，向左移動／跳躍閃避」等基本指令，以及遊戲畫面的截圖。接著，AI模型需要自行生成 Python 程式碼形式的指令，來操控瑪利歐在遊戲中的行動。

實驗室主持人 Hao 指出，相較於其他基準測試，《超級瑪利歐兄弟》迫使AI模型必須「學習」規劃複雜的操作，並制定即時的遊戲策略。一個有趣的發現是，研究團隊觀察到，擅長推理的模型，例如 OpenAI 的 o1 模型（透過逐步「思考」問題來找出解決方案），在本次測試中的表現反而不如「非推理型」模型。儘管推理模型在多數基準測試中往往展現更強大的能力。

研究人員分析，推理模型在應對此類即時遊戲時遭遇瓶頸，主要原因之一在於其決策過程需要一定的時間延遲——通常為數秒。然而，在《超級瑪利歐兄弟》這類分秒必爭的遊戲中，時間至關重要。短短一秒的延遲，可能就決定了角色是成功跳躍躲避障礙，或是失足墜入深淵。

數十年來，遊戲一直被視為評估AI能力的基準之一。然而，部分專家開始質疑，將AI在遊戲中的技能表現，與技術的實際進展過度連結是否恰當。相較於複雜多變的現實世界，遊戲環境往往是經過抽象化、相對簡化的，且理論上，遊戲能為AI訓練提供近乎無限量的數據。

近期，OpenAI 的研究科學家暨創始成員 Andrej Karpathy 更坦言，他正面臨一場「評估危機」。他在社群平台 X 上發文表示：「我真的不知道現在該關注哪些 [AI] 指標。總之，我的反應是我真的不清楚這些模型現在有多厲害。」

儘管如此，至少我們現在可以透過觀察AI模型遊玩《瑪利歐》的表現，一窺當前AI技術的發展現況。