注意,這位玩家正在熟練地玩著《Minecraft》,他遊刃有餘地進行著收集零食和打碎積木的操作。
鏡頭一轉,我們才發現:玩家的真實身份,竟然是一隻猩猩!
沒錯,這是一項來自「猩猩行動計畫(Ape Initiative)」的非人類生物神經網路實驗。而實驗的主角 Kanzi,是一隻 42 歲的倭黑猩猩。
經過訓練後,它學會了各種技能,挑戰了鄉村、沙漠神殿、下界傳送門等環境,一路通關到達終點。
而 AI 專家發現,猩猩訓練師教會它學技能的過程,竟然跟人類教 AI 玩 Minecraft 有諸多類似之處,比如上下文強化學習、RLHF、模仿學習、課程學習等。
當猩猩學會玩《Minecraft》
Kanzi 是來自 Ape Initiative 的一隻倭黑猩猩,它是世界上最聰明的猩猩之一,聽得懂英語,還會使用觸控式螢幕。
在 Ape Initiative,Kanzi 能接觸到各種電子觸控式螢幕,這或許為它快速上手《Minecraft》打好了基礎。
人們第一次向 Kanzi 展示《Minecraft》時,它一坐到螢幕前就發現了綠色的箭頭,然後用手指劃向了這個目標物上。
學習三種技能
才不過幾秒鐘,Kanzi 就發現了該怎樣在《Minecraft》中移動。隨後,它還學會了收集獎勵。
每收集一個獎勵,它都會得到花生、葡萄、蘋果之類的零食獎勵。
Kanzi 的操作越來越嫻熟。它會分辨和目標箭頭同樣是綠色柱形的障礙物,在收集獎勵時繞開它們。
當然,Kanzi 也會遇到難關。它需要使用 break 工具擊碎大的積木塊,但這個操作,它此前從未見過。
眼看 Kanzi 卡住了,人類在旁邊開始幫忙,指著所需的工具按鈕。然而 Kanzi 看完後仍然沒能領悟。
人類只好親自上手,用工具敲碎了木塊。Kanzi 看完後若有所思,在所有人期待的目光中,它也有樣學樣,點選按鈕後擊碎了木塊。人們瞬間爆發出歡呼。
現在,Kanzi 的技能樹已經集齊了兩樣:收集零食、打碎積木。
在學習山洞技能的時候,工作人員發現,如果從試圖擊碎的木塊上滑落,Kanzi 就會直接走掉。因此,人們為它特別定製了一個任務 ——
在一個到處都是鑽石牆的山洞中擊碎木塊,來證明它掌握了收藏和擊碎的技能。
在山洞里一切都很順利,然而,Kanzi 卻遇到了一個問題:它在牆角被卡住了。此時,就需要人類伸出援手。
最終,Kanzi 到達了洞穴底部,擊碎了最後一道牆。
人群爆發出歡呼,Kanzi 也高興地和工作人員擊掌。
騙過人類
接下來,有意思的來了:工作人員邀請了一位人類玩家,和 Kanzi 一起玩遊戲,當然,他對於 Kanzi 的身份並不知情。
工作人員打算看一看,這位玩家會在多長時間後意識到,和自己一起玩遊戲的並不是人類。
開始,這位小哥只是覺得,對方的移動速度慢到不可思議,當 Kanzi 的畫面被展現到眼前,小哥直接被嚇到後仰。
走出迷宮
之後再玩《Minecraft》,Kanzi 越戰越勇。
每當 Kanzi 收集到一個獎勵,人們就會用歡呼的形式肯定它的行為,如果它失敗了,訓練員也會用鼓掌和歡呼鼓勵它繼續進行遊戲。
這時,它已經學會解鎖地下迷宮的地圖、擊碎面前的障礙物以及找到紫水晶。
當 Kanzi 卡住的時候,它會出去散散心,拿回一根木棍放到自己旁邊。就算不幸失敗,Kanzi 也會點選按鈕,讓自己重生。
最後一關,是一個充滿分岔路的巨大迷宮。
因為遲遲無法走出迷宮,Kanzi 焦躁起來,開始拿著樹枝尖叫,或者氣得把樹枝折斷。
最終,它讓自己平靜下來繼續闖關,走出了迷宮。立刻,掌聲和歡呼聲把 Kanzi 包圍了。
看來,《Minecraft》是被 Kanzi 這只倭黑猩猩玩明白了。
教猩猩和教 AI 的相似之處
看著一隻倭黑猩猩熟練地玩著電子遊戲,多少會有點讓人覺得有些荒誕和不可思議。
NVIDIA高級科學家 Jim Fan 對此評論:「儘管 Kanzi 和它的祖先們一生從未見過《Minecraft》,但它很快就適應了電子螢幕上顯示的紋理和物理特性。而這與它們一直以來接觸和生活的自然環境截然不同。」
這種泛化水平遠遠超出了現今為止最強大的視覺模型。而訓練動物玩《Minecraft》的技巧本質上與訓練人工智慧的原則是相同的:
- 基於上下文的強化學習:
每當 Kanzi 在遊戲中達到標記的里程碑時,他就會得到一個水果或花生,激勵他繼續遵循遊戲中的規則。
- RLHF:
Kanzi 並不理解人類的語言,但它能看到訓練人員為他加油打氣,還會偶爾給出回應。來自訓練人員的歡呼給了 Kanzi 一個強烈的訊號:它走在正確的道路上。
- 模仿學習:
訓練員為 Kanzi 展示了如何完成任務之後,它就立即掌握了相關操作的含義。展示的效果遠遠超出比單獨使用獎勵的策略。
- 課程學習(Curriculum learning):
訓練員和 Kanzi 從非常簡單的環境開始,逐步教導 Kanzi 掌握控制技能。最後,Kanzi 能夠穿越複雜的洞穴、迷宮。
不僅如此,即便是使用了類似的訓練技巧,動物的視覺系統就能在極短的時間內識別和適應新的環境,而 AI 視覺模型則會花費更多的時間和訓練成本,甚至常常難以達到理想效果。
我們再次陷入莫拉維克悖論(Moravec's paradox)的深淵:
人工智慧與人類的能力表現相反。在我們認為無需思考或作為本能的低級智慧活動中(如感知和運動控制),人工智慧表現很糟糕。但在需要推理、抽象的高級智慧活動中(如邏輯推理和語言理解),人工智慧卻很容易超越人類。
這正好對應了這個實驗呈現的結果:
我們最好的人工智慧(GPT-4)在理解語言方面接近人類水平,但在感知、識別方面遠遠落後於動物。
Kanzi 和 LLMs 都可以玩《Minecraft》,但 Kanzi 的學習方式和 LLMs 之間存在著不可小覷的差異,我們要注意這一點。
面對 Kanzi 優異的學習能力,網友們開始了惡搞。
有人預見 6 年以後的世界將成為猩球大戰......
或者是猩猩喝可樂,融入人類社會......
「如果 Kanzi 有自己的遊戲頻道,我會老老實實看的。」
「在玩遊戲上,人類與倭黑猩猩沒有太大區別。我們都受到獎勵的激勵,以執行某些任務並完成目標,唯一的區別是獎勵的實際內容。」
「在《Minecraft》中,Kanzi 開採鑽石的獎勵更即時、更原始(食物),而我們開採鑽石的獎勵則更延遲且與遊戲相關。總之,有點瘋狂。」
先是 GPT 學會了玩《Minecraft》,現在倭黑猩猩也可以玩了,這讓人不禁開始期待能用上 Neuralink 的未來。
Jim Fan 教 AI 智慧體玩《Minecraft》
在教 AI 玩 Minecraft 上,人類早已積累了許多先進經驗。
早在今年 5 月,Jim Fan 團隊就曾把NVIDIA的 AI 智慧體接入 GPT-4,做出了一個全新的 AI 智慧體 Voyager。
Voyager 不僅性能完勝 AutoGPT,而且還可以在遊戲中進行全場景的終身學習!它可以自主寫程式碼獨霸《Minecraft》,完全無需人類插手。
可以說,Voyager 出現後,我們離通用人工智慧 AGI,又近了一步。
真・數位生命
接入 GPT-4 之後,Voyager 根本不用人類操心,完全就是自學成才。它不僅掌握了挖掘、建房屋、收集、打獵這些基本的生存技能,還學會了自個進行開放式探索。
通過自我驅動,它不斷擴充著自己的物品和裝備,配備不同等級的盔甲,用盾牌格擋傷害,用柵欄圈養動物。
大型語言模型的出現,給建構具身智慧體帶來了全新的可能性。因為基於 LLM 的智慧體可以利用預訓練模型中蘊含的世界知識,生成一致的行動計畫或可執行策略。
Jim Fan:我們在 BabyAGI / AutoGPT 之前就有了這個想法,花了很多時間找出最好的無梯度架構
而在智慧體中引入 GPT-4,就開啟了一種全新的範式(靠程式碼執行「訓練」,而非靠梯度下降),讓智慧體擺脫了無法終身學習的缺陷。
OpenAI 科學家 Karpathy 也對此盛讚:這是個用於高級技能的「無梯度架構」。在這裡,LLM 就相當於是前額葉皮層,通過程式碼生成了較低級的 mineflayer API。
3 個關鍵元件
為了讓 Voyager 成為有效的終身學習智慧體,來自NVIDIA、加州理工學院等機構的團隊提出了 3 個關鍵元件:
1. 一個迭代提示機制,能結合遊戲反饋、執行錯誤和自我驗證來改處理程序序
2. 一個技能程式碼庫,用來儲存和檢索複雜行為
3. 一個自動教學,可以最大化智慧體的探索
首先,Voyager 會嘗試使用一個流行的 Minecraft JavaScript API(Mineflayer)來編寫一個實現特定目標的程式。
遊戲環境反饋和 JavaScript 執行錯誤(如果有的話)會幫助 GPT-4 改處理程序。
左:環境反饋。GPT-4 意識到在製作木棒之前還需要 2 塊木板。
右:執行錯誤。GPT-4 意識到它應該製作一把木斧,而不是一把「相思木」斧,因為 Minecraft 中並沒有「相思木」斧。
通過提供智慧體當前的狀態和任務,GPT-4 會告訴程式是否完成了任務。
此外,如果任務失敗了,GPT-4 還會提出批評,建議如何完成任務。
自我驗證
其次,Voyager 通過在向量資料庫中儲存成功的程式,逐步建立一個技能庫。每個程式可以通過其文件字串的嵌入來檢索。
複雜的技能是通過組合簡單的技能來合成的,這會使 Voyager 的能力隨著時間的推移迅速增長,並緩解災難性遺忘。
上:新增技能。每個技能都由其描述的嵌入索引,可以在將來的類似情況中檢索。
下:檢索技能。當面對自動課程提出的新任務時,會進行查詢並識別前 5 個相關技能。
第三,自動課程會根據智慧體當前的技能水平和世界狀態,提出合適的探索任務。
例如,如果它發現自己在沙漠而非森林中,就學習採集沙子和仙人掌,而不是鐵。課程是由 GPT-4 基於「發現儘可能多樣化的東西」這個目標生成的。
自動課程
作為第一個由 LLM 驅動、可以終身學習的具身智慧體,Voyager 的訓練過程和猩猩訓練過程的相似之處,可以給我們許多啟示。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!