機器人看影片10小時就學會煮咖啡！2040年前，機器人能成功挑戰史蒂夫·沃茲尼克的咖啡測試嗎？

上周史丹佛炒蝦機器人炸場之後，又紅了一個煮咖啡機器人。

它的厲害之處在於通過觀看人類的示範影片，僅需10小時端到端訓練，就能學會並完全自主搞定這一任務。

當然，更準確地來說是操作咖啡機：

只見它打開機蓋、放入咖啡膠囊，再按下開始按鈕，整個過程一氣呵成，無需任何遠端遙控。

很快，一杯咖啡就可以端走享用：

以上演示影片，沒有任何加速處理。這就是該機器人目前可以達到的實際操作速度。

而除了這些，它還具備自主除錯功能：

如果咖啡包沒有放正，不用人類提醒，它自己就能調整好。

對此，前谷歌DeepMind研究員（也是該機器人的開發人員）直接就是一個轉發點讚，並再次強調：

所有行為包括除錯，完全自主。

公司創始人Brettt Adcock稱，這就是機器人技術的ChatGPT時刻。

不管是不是每個人都贊同這個說法，但網友被它的訓練速度所折服是沒得說。

10個小時真的很優秀，如果能快轉到使用研磨機和法壓壺，相信很快影片裡那個咖啡機也要失業了。

那麼，這個機器人具體什麼來頭？

10小時端到端訓練搞定煮咖啡

如上這個機器人來自一家商業公司，名叫Figure。

Figure總部位於美國，成立於2022年，專攻通用人形機器人。

創始人Brett Adcock畢業于美國佛羅里達大學，26歲時創辦了一家線上人才市場網站，後被同行1.1億美元收購，然後又創辦了一家生產全電動垂直起降飛機的航太公司，27億美元上市。

如今，這家機器人公司Figure也可謂吸金無數，先是在去年5月拿到7000萬美元A輪融資，兩個月後又獲得Intel 900萬美元投資。

去年10月——大概成立一年之際，Figure發表首款人形機器人，代號Figure 01。

它走起路來是這樣的：

我們看到的煮咖啡示範正是由它所完成。而學會這項技能，只花了10個小時訓練時間。

Figure 01採用的是端到端神經網路，這邊接收人類煮咖啡的影片，那邊就能輸出動作軌跡，讓機器人透過模仿，最終完成自主操作。以此類推，讓它學會別的任務，也只需要輸入相應的影片即可。至於具體實現細節，官方沒有透露。

不過，先撇開10小時就完成訓練不談，對於讓機器人學會煮咖啡這類任務本身來說，已經不是一件難事兒了。

其核心就是模仿學習，入選CoRL’22（機器人，學習會議）的VIOLA可以做到（它是一個以物件為中心的模仿學習框架，基於Transformer進行推理，擅長長程任務，比最先進的模仿學習演算法性能高出45.8%）；

今年6月Google發表的HYDRA，也專攻於此，擅長各種粗細微性和細細微性控制，並可自如切換。

來自史丹佛大學的AME，基於Waypoint完成，對於煮咖啡這種任務也毫不含糊，只不過速度慢很多。

還有NVIDIA的HITL-TAMP、MimicGen等研究成果，也就是機器人模仿學習相關，就不一一介紹了。

儘管Figure 01的表現很不錯（比如速度就很快），但不少網友還是評價：

這和想像中的煮咖啡機器人還有一點距離。

比如它能不能拿起杯子、將其放到咖啡機下，沖完咖啡後加入牛奶和糖，再將杯子放到托盤上，端到人面前？

事實上，蘋果公司聯合創始人史蒂夫·沃茲尼克（Steve Wozniak）曾提出一個評估機器人自主能力的咖啡測試。

它要求機器人從進入一個陌生的家中開始，然後找到廚房，辨識工具（例如咖啡機、水壺）和材料（咖啡豆、糖、牛奶等），最終做好一杯咖啡，且全程不超過20分鐘。

這個測試考驗機器人在未知環境中導航、辨識物體、操作工具和材料以及遵循人類命令等一系列能力。有人發起過投票，問2040年之前能否有這樣的機器人誕生？

結果有89%的人回答了「Yes」。