Google公開最強遊戲AI系統SIMA：已會600種遊戲技能，可聽從人類指示、什麼遊戲都能上手的神隊友

Google公開了新開發的AI系統SIMA（Scalable Instructable Multiworld Agent），可以聽從人類的指示即時操縱遊玩遊戲。

這是由Google的Deep Mind團隊所開發，根據官網表示，電玩遊戲是人工智慧 (AI) 系統的重要試驗場。與現實世界一樣，遊戲是豐富的學習環境，具有響應靈敏、即時的設定和不斷變化的目標。

過去，DeepMind與 Atari 遊戲的合作，AI後來又進展到以人類特級大師級別玩《星海爭霸 II》的AlphaStar系統，Google DeepMind 在人工智慧和遊戲領域擁有悠久的歷史。

現在最新發佈的 SIMA（Scalable Instructable Multiworld Agent ）可以說是AI玩遊戲這個系統的里程碑，因為他們將過去只用在單一遊戲的AI系統，轉向為通用的，可以受到人類指導的AI智慧代理系統。

SIMA是一種用於 3D 虛擬設定的通用 AI 代理。DeepMind表示，他們與遊戲開發商合作，對 SIMA 進行各種視頻遊戲的培訓。這項研究標誌著AI智能體首次證明它可以理解廣泛的遊戲世界，並像人類一樣遵循自然語言指令執行其中的任務。

這項工作並不是為了獲得高分。對於人工智慧系統來說，學習玩一款遊戲就是一項技術壯舉，但學習在各種遊戲設定中遵循指令可以為任何環境解鎖更有用的人工智慧代理。

Google表示「我們的研究展示了如何透過語言介面將高階人工智慧模型的功能轉化為有用的、現實世界的動作。我們希望 SIMA 和其他代理商研究能夠使用遊戲作為沙盒，以便更好地了解人工智慧系統如何變得更有幫助。」

真正的「從遊戲中學習」

為了將 SIMA 應用於多種環境，DeepMind與遊戲開發商建立了許多合作夥伴關係以進行研究。他們表示，一共與八家遊戲工作室合作，在九種不同的電玩遊戲上訓練和測試 SIMA，例如Hello Games 的《No Man's Sky》和 Tuxedo Labs 的《Teardown》。

SIMA 產品組合中的每款遊戲都開啟了一個新的互動世界，包括一系列可供學習的技能，從簡單的導航和菜單使用，到採礦資源、駕駛太空船或製作頭盔。

DeepMind表示，他們還使用了四個研究環境：包括使用Unity建造的一個名為「建造實驗室」的新環境，以測試他們的物件操作和對物理世界的直觀理解。

透過學習不同的遊戲世界，SIMA 捕捉到如何與遊戲行為連結。「我們的第一種方法是在我們的投資組合中記錄遊戲中的成對人類玩家，其中一名玩家觀看並指導另一名玩家。我們也讓玩家自由地玩，然後重新觀察他們所做的事情並記錄導致他們進行遊戲操作的指示。」

▲ SIMA 包括預先訓練的視覺模型和一個包含記憶體並輸出鍵盤和滑鼠操作的主模型。

SIMA：多功能人工智慧代理

SIMA 是一種人工智慧代理，可以感知和理解各種環境，然後採取行動來實現指示的目標。它包括一個專為精確圖像語言映射而設計的模型和一個預測螢幕上接下來會發生什麼的視訊模型。我們根據 SIMA 產品組合中特定於 3D 設定的訓練資料對這些模型進行了微調。

人工智慧代理不需要讀取遊戲的程式碼，也不需要自訂的 API。它只需要兩個輸入：螢幕上的圖像以及用戶提供的簡單的自然語言指令。SIMA 使用鍵盤和滑鼠輸出來控制遊戲的中心角色來執行這些指令。這個簡單的介面是人類使用的，這意味著 SIMA 可以與任何虛擬環境進行互動。

SIMA 的當前版本透過 600 項基本技能進行評估，涵蓋導航（例如「左轉」）、物件互動（「爬梯子」）和選單使用（「開啟地圖」）。官方表示「我們已經訓練 SIMA 執行可在大約 10 秒內完成的簡單任務。」

▲ SIMA 的評估涉及 600 項基本技能，涵蓋導覽、物件互動和選單使用。

跨遊戲等泛化

Google表示，訓練的結果證明，受過多種遊戲訓練的智能體比只學習如何玩一種遊戲的智能體更好。

在評估中，SIMA 智能體在產品組合中的9個 3D 遊戲上進行訓練，其表現明顯優於僅在每個遊戲上進行訓練的所有專業智能體。更重要的是，平均而言，在除一款遊戲之外的所有遊戲中接受過訓練的智能體在該看不見的遊戲中的表現幾乎與專門針對該遊戲進行過訓練的智能體一樣好。重要的是，這種在全新環境中運作的能力凸顯了 SIMA 超越其訓練的泛化能力。這是一個很有希望的初步結果，但是 SIMA 需要進行更多的研究才能在可見和未見的遊戲中達到人類水平。

結果還表明 SIMA 的性能依賴於語言。在控制測試中，智能體沒有接受任何語言訓練或指令，它的行為方式適當但漫無目的。例如，代理可能會收集資源（這是一種常見行為），而不是按照指示走去。

▲ 評估了 SIMA 按照指令完成近 1500 個獨特遊戲內任務的能力，其中部分使用了人類評審。作為我們的基準比較，我們使用環境專用 SIMA 代理的性能（經過培訓和評估以遵循單一環境中的指令）。將這種效能與三種類型的通用 SIMA 代理程式進行比較，每種代理程式都經過多個環境的訓練。