ADVERTISEMENT
當前人工智慧(AI)發展日新月異,各界不斷尋找更有效且具代表性的基準測試,以評估AI模型的真實能力。繼《寶可夢》之後,有研究團隊認為,經典遊戲《超級瑪利歐兄弟》(Super Mario Bros.)可能是一個更具挑戰性的新選擇。加州大學聖地牙哥分校(University of California, San Diego)郝人工智能實驗室(Hao AI Lab)近期便進行了一項實驗,將多個知名AI模型投入《超級瑪利歐兄弟》的即時遊戲環境中,測試其表現。
根據實驗結果,Anthropic 的 Claude 3.7 模型表現最為出色,其次為 Claude 3.5。相較之下,Google 的 Gemini 1.5 Pro 與 OpenAI 的 GPT-4o 在此項測試中則顯得力不從心。值得注意的是,本次實驗所使用的《超級瑪利歐兄弟》版本並非完全還原1985年的初代版本,而是在模擬器環境下運行,並整合 GamingAgent 框架,以便讓AI模型能夠控制遊戲中的瑪利歐角色。
Hao AI Lab 自行開發的 GamingAgent 框架,主要負責向AI模型提供如「若偵測到障礙物或敵人接近,向左移動/跳躍閃避」等基本指令,以及遊戲畫面的截圖。接著,AI模型需要自行生成 Python 程式碼形式的指令,來操控瑪利歐在遊戲中的行動。
ADVERTISEMENT
實驗室主持人 Hao 指出,相較於其他基準測試,《超級瑪利歐兄弟》迫使AI模型必須「學習」規劃複雜的操作,並制定即時的遊戲策略。一個有趣的發現是,研究團隊觀察到,擅長推理的模型,例如 OpenAI 的 o1 模型(透過逐步「思考」問題來找出解決方案),在本次測試中的表現反而不如「非推理型」模型。儘管推理模型在多數基準測試中往往展現更強大的能力。
研究人員分析,推理模型在應對此類即時遊戲時遭遇瓶頸,主要原因之一在於其決策過程需要一定的時間延遲——通常為數秒。然而,在《超級瑪利歐兄弟》這類分秒必爭的遊戲中,時間至關重要。短短一秒的延遲,可能就決定了角色是成功跳躍躲避障礙,或是失足墜入深淵。
數十年來,遊戲一直被視為評估AI能力的基準之一。然而,部分專家開始質疑,將AI在遊戲中的技能表現,與技術的實際進展過度連結是否恰當。相較於複雜多變的現實世界,遊戲環境往往是經過抽象化、相對簡化的,且理論上,遊戲能為AI訓練提供近乎無限量的數據。
ADVERTISEMENT
近期,OpenAI 的研究科學家暨創始成員 Andrej Karpathy 更坦言,他正 面臨一場「評估危機」。他在社群平台 X 上發文表示:「我真的不知道現在該關注哪些 [AI] 指標。總之,我的反應是我真的不清楚這些模型現在有多厲害。」
儘管如此,至少我們現在可以透過觀察AI模型遊玩《瑪利歐》的表現,一窺當前AI技術的發展現況。
ADVERTISEMENT