只用 13 天，OpenAI 做出了能聽、能說、能自主決策的機器人大模型 | T客邦

只用 13 天，OpenAI 做出了能聽、能說、能自主決策的機器人大模型

ADVERTISEMENT

資深機器人專家 Eric Jang 不久前曾預言:「ChatGPT 曾在一夜之間出現。我認為，有智慧的機器人技術也將如此。」

他也許說對了。

台北時間 3 月 13 日深夜，一段人形機器人的影片開始在 X 上熱傳。

之前從未展示過機器人方向能力的 OpenAI，在與投資公司的人形機器人的合作中，第一次展示了自己的機器人智慧能力。

Figure，OpenAI 投資的機器人公司，上傳了這段影片。在影片中，Figure 的人形機器人，可以完全與人類流暢對話，理解人類的意圖，同時還能理解人的自然語言指令進行抓取和放置，並解釋自己為什麼這麼做。

而其背後，就是 OpenAI 為其配置的智慧大腦。

▲OpenAI 與 Figure 合作的機器人展示影片

延伸閱讀：Figure 01人型機器人即將進駐BMW工廠，挑戰傳統造車模式

在過去一年的具身智慧進展中，或許你曾經看過類似的機器人自主決策、拿取物品的展示，但在這段影片中，Figure 人形機器人的對話流暢度、展現出的智慧感，接近人類操作速度的動作流暢性，絕對都是第一流的。

Figure 還特意強調，整段影片沒有任何加速，也沒有任何剪輯，是一鏡到底拍攝的。同時，機器人是在完全自主的情況下進行的行為，沒有任何遠端操縱——似乎在暗暗諷刺前段時間爆紅的展現了酷炫機械能力，但是沒有太多智慧程度的史丹佛炒菜機器人。

比起機器人的智慧表現，更可怕的是，這只是 OpenAI 小試牛刀的結果——從 OpenAI 宣佈與 Figure 共同合作推進人形機器人領域的尖端，到這個影片的發表，只有短短的十三天。

此次 Figure 人形機器人背後的智慧，來自端到端的大語言-視覺模型，這是具身智慧領域目前非常尖端的領域。去年媒體報導過Google在類似領域的進展。Google做出的端到端機器人控制模型，被一些行業內的人士，譽為機器人大模型的 GPT-3 時刻。

而當時，谷歌的機器人模型，還只能根據對話來做一些抓取，並不能與人類對話，也不能向人類解釋自己為什麼會這麼做。而Google自身，從 Everyday Robotics 開始，已經有了五年以上的機器人研究經驗。

而 Figure 本身，成立於 2022 年。從OpenAI 宣佈介入與之合作，到今天它們共同推出一個能夠自主對話和決策的機器人，只有 13 天。

機器人智慧的發展，顯然正在加速。

延伸閱讀：把ChatGPT裝到人形機器人上，OpenAI 投資機器人公司1X technologies

端到端大模型驅動，機器人的速度已經接近人類速度

Figure 的創始人 Brett Adcock 和 AI 團隊的負責人 Corey Lynch 在 X 上解釋了此次影片發表背後的原理。

此次的突破，由 OpenAI 與 Figure 共同做出。OpenAI 提供負責提供視覺推理和語言理解，而 Figure 的神經網路提供快速、低水準、靈巧的機器人動作。

機器人所做出的所有行為都是出於已經學習過，內化了的能力，而不是來自不是遠端操作。

研究人員將機器人攝影鏡頭中的圖像輸入，和機載麥克風捕獲的語音中的文本轉錄到由 OpenAI 訓練的，可以理解圖像和文本的多模態模型（VLM）中，由該模型處理對話的整個歷史記錄，得出語言回應，然後透過文本到語音的方式將其回復給人類。

同樣的模型，也負責決定在機器人上運行哪些學習的閉環行為來完成給定的命令，將特定的神經網路權重載入到 GPU 上並執行策略。

這也是為什麼這個機器人，屬於「端到端」的機器人控制。從語言輸入開始，模型接管了一切處理，直接輸出語言和行為結果，而不是需要中間輸出一些結果，再載入其他的環節處理這些結果。

Figure 的機載攝影鏡頭以 10hz 的頻率拍攝圖像，然後神經網路以 200hz 輸出 24 個自由度動作。

Figure 的創始人提到，這代表機器人的速度已經有顯著提高，開始接近人類的速度。

OpenAI 的模型的多模態能力，是機器人可以與世界互動的關鍵，我們能夠從影片中展示中看到許多類似的瞬間，比如：

描述一下它的周圍環境。

做出決定時使用常識推理。例如，「桌子上的盤子和杯子等餐具接下來很可能會進入晾衣架」。

將「我餓了」等模棱兩可的進階請求轉化為一些適合上下文的行為，例如「遞給對方一個蘋果」。

用簡單的英語描述*為什麼*它會執行特定的操作。例如，「這是我可以從桌子上為您提供的唯一可食用的物品」。

而模型能力的強大，使其還能夠擁有短期記憶，比如影片中展示的「你能把它們放在那裡嗎？」「它們」指的是什麼？「那裡」又在哪裡？正確回答需要反思記憶的能力。

而具體的雙手動作，可以分成兩步來理解：

首先，網路預訓練模型對圖像和文本進行常識推理，以得出進階計畫。如影片中展示的：Figure 的人形機器人快速形成了兩個計畫：1）將杯子放在碗碟架上，2）將盤子放在碗碟架上。

其次，大模型以 200hz 的頻率生成的 24-DOF 動作（手腕姿勢和手指關節角度），充當高速「目標值（setpoint）」，供更高速率的全身控制器跟蹤。全身控制器確保安全、穩定的動力，如保持平衡。

所有行為均由神經網路視覺運動 Transformer 策略驅動，將像素直接映射到動作。

從 ChatGPT到Sora，再到機器人，OpenAI 想包辦「智慧」這件事

2021 年夏天，OpenAI 悄悄關閉了其機器人團隊，當時，OpenAI 曾宣佈無限期終止對機器人領域的探索，原因是缺乏訓練機器人使用人工智慧移動和推理所需的資料，導致研發受到阻礙。

但顯然，OpenAI 並沒有放下對這個領域的關注。

2023 年 3 月，正在一年前，OpenAI投資了來自挪威的機器人製造商 1X Technologies。其副總裁正是文章一開頭提到的，認為具身智慧將會突然到來的 Eric Jang。

而無獨有偶，1X Technologies 的技術方向，也是端到端的神經網路對於機器人的控制。

而今年 3 月初，OpenAI和其他投資人一起，參與了 Figure 的 B 輪融資，使其成立兩年，就達到了 26 億美金估值。

也正是在這一輪融資之後，OpenAI 宣佈了與 Figure 的合作

Figure 的創始人 Brett Adcock，是個連續創業者，整個職業生涯中創立過至少 7 家公司，其中一家以 27 億美元的估值上市，一家被 1.1 億美元的價格收購。

創建公司後，他招募到了研究科學家 Jerry Pratt 擔任首席技術官，前波士頓動力/蘋果工程師 Michael Rose 擔任機器人控制主管。此次進行分享的 AI 團隊負責人 Corey Lynch，則原本是 Google Deepmind 的 AI 研究員。

Figure 宣佈自己在電機、韌體、熱量、電子產品、中介軟體作業系統、電池系統、執行器感測器、機械與結構方面，都招募了硬核的設計人才。

公司的確進展很快。在與 OpenAI 合作之前，已經做出了不少成績。2024 年 1 月，Figure 01（Figure 的第一款人形機器人）學會了做咖啡，公司稱，這背後引入了端到端神經網路，機器人學會自己糾正錯誤，訓練時長為 10 小時。

▲ Figure 01 引入 AI 學會做咖啡

延伸閱讀：機器人看影片10小時就學會煮咖啡！2040年前，機器人能成功挑戰史蒂夫·沃茲尼克的咖啡測試嗎？

2 月，公司對外展示 Figure 01 的最新進展，在影片裡，這個機器人已經學會搬箱子，並運送到傳送帶上，但速度只有人類的 16.7%。

甚至在商業化上，也已經邁出了第一步：Figure 宣佈與BMW製造公司簽署商業協定，將 AI 和機器人技術整合到汽車生產中，部署在BMW位於南卡羅萊納州斯巴達堡的製造工廠。

而在今天的影片展示推文中，Figure 宣佈其目標是訓練一個世界模型，最終能夠賣出十億個等級的模型驅動的人形機器人。

不過，儘管OpenAI 與 Figure 的合作進展順暢，但看起來 OpenAI 並未把寶壓在一家機器人公司。

台北時間 3 月 13 日，來自Google研究團隊、加州大學柏克萊分校、史丹佛大學教授等一群研究者新成立的一家機器人 AI 公司 Physical Intelligence，被彭博社爆料也拿到了 OpenAI 的融資。

毫無意外，該公司，也是研究未來能夠成為通用機器人系統的人工智慧。

多頭下注機器人領域，13 天合作做出領先的機器人大模型，OpenAI 在機器人領域意圖為何，引人關注。

智慧人形機器人，未來不止看馬斯克的了。

延伸閱讀：首個由GPT-4驅動的人形機器人「Alter3」！無需程式設計+零樣本學習，還可根據口頭回饋調整行為

使用 Facebook 留言

謹慎發言，尊重彼此。按此展開留言規則