
人工智慧(AI)再次展現其強大的學習能力,這次的目標是經典遊戲《寶可夢 紅》。一項名為「Pokémon RL Edition」的計畫,成功利用AI代理通關了這款1996年發售的遊戲,而令人驚訝的是,該AI的參數規模僅為DeepSeek-V3的約六萬分之一。
該計畫採用了強化學習(Reinforcement Learning)方法,這是一種透過在動態環境中反覆試驗並收集經驗來學習的方法,旨在最大化目標設定的報酬。與依賴靜態數據集的傳統方法不同,強化學習更注重AI在與環境互動中自主學習的能力。
《寶可夢》等日式角色扮演遊戲(JRPG)需要複雜的推理和決策,並且遊戲時間長,對AI來說是一項極具挑戰性的任務。專案團隊認為,透過強化學習來通關JRPG,可以成為改善AI的一個優秀基準。
為了實現這一目標,專案團隊利用寶可夢逆向工程團隊(PRET)的工具,以及旨在透過Python進行Game Boy模擬的PyBoy,目標是透過強化學習代理來通關《精靈寶可夢》。選擇強化學習的原因在於,相較於監督式學習,它不需要大量標記數據集、大型模型和預算。此外,強化學習還能避免報酬函數不明確的問題,讓AI在學習過程中不斷優化。
然而,在《寶可夢》中,存在許多可能導致無法通關的情況,例如無法獲得所需的寶可夢、隊伍配置不當、道具空間不足等。為了解決這些問題,專案團隊在特定環境下嵌入了讓代理執行特定動作的腳本。他們坦言,雖然希望不使用腳本就能通關,但在某些情況下,需要人類的直覺,而這些直覺無法直接從遊戲中學習。
其中,攻略原野區被認為是最困難的部分。在這個區域,玩家必須獲得關鍵道具「金假牙」,但由於步數限制和路線複雜,AI很難在沒有輔助的情況下完成任務。為此,專案團隊採用了獲得與野生原野區剩餘步數成比例的報酬的方法,經過數千次嘗試後,AI終於成功通關。
目前,該專案已經完成了一個勉強可以通關《寶可夢》的AI代理,但尚未達到可以證明系統在禁用所有腳本的情況下也能穩定通關遊戲的狀態。儘管已經確認在單獨刪除各個腳本的情況下可以通關,但由於存在一些錯誤,因此仍有需要解決的課題。
專案團隊表示,JRPG是通往更強大AI的墊腳石,但還有很多東西需要學習。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!