被啤酒節遺留垃圾嚇到，德國研究生發明現實版「瓦力」清潔機器人

喜歡科幻的人應該都看過《瓦力》，男主角「瓦力」是一名地球廢品分裝員，每天在已經成為了「垃圾場」的地球兢兢業業的收拾人類留下的「爛攤子」。

瓦力是名副其實的智慧型機器人，除了動作靈活之外，還擁有意識和情感。要不然也不會泡上了有著雞蛋外形的伊芙（EVE）。

但是，畢竟那是發生在2805年的事情。那時候人類都已經可以開啟宇宙之旅了，設計個智慧型機器人還不是分分鐘的事情。

在2019年，造不出擁有情感的機器人，但是用AI模型訓練出收拾垃圾的機器人，還是可以的。

一位名叫Damian Bogunowicz的慕尼黑工業大學碩士生，和他的同伴一起利用電腦視覺、深度強化學習和Unity 3D遊戲引擎開發了一款自主收集垃圾的機器人。

據Damian的部落格介紹，他的這個想法最初來自慕尼黑工業大學博士研究會。這群參與會議的「高階玩家」都很愛喝啤酒，也是慕尼黑啤酒節的常客。但是，看到每年慕尼黑啤酒節狂歡過後一片狼藉，他們陷入了深思........

通常，這些垃圾都是清潔工人收拾，會耗費大量的人力、物力。

Damian由此想到，是否能開發出一款智慧型機器人，全天候、高效率的幫助這些清潔工人，那麼他們的工作效率就會成幾何倍數增長。

環境和目標設置

說做就做！

他們的第一步是使用Unity 3D遊戲引擎模擬機器人，此外，還使用Unity Machine Learning Agents Toolkit（ML-Agents）外掛程式，使遊戲場景成為訓練智慧體的環境。

在這個實驗中，他們將機器人的目標設置為探索環境並學習正確的策略。然後設定一系列的獎勵和懲罰。

主要來說，機器人有兩個目標：

在模擬環境中，機器人的形狀是正方體，主要有三個動作：

前兩個動作非常簡單，抓取狀態需要設計。總的來說，每次機器人決定收集一個物體時候需要滿足下面兩個條件：

機器人可以透過與環境的互動和回饋的訊號來學習正確的策略。對此系統來說，懲罰值在-1~0之間浮動，獎勵值在0~1之間浮動。與其他強化學習不同的是，要在訓練數據的時候迅速獲得最好的策略，次要目標給予較小的獎勵值。當學習複雜任務時，從簡單任務入手，逐漸增加任務難度。

這些都可以在Unity ML-Agents中輕鬆能夠實現，具體來說將任務分為兩個子目標，在環境中搜索垃圾、判斷何時啟動抓取狀態。

機器人最初不太能分清楚要將哪種物品歸為垃圾，後來，透過網路將RBG圖像映射到語義分割圖，能夠有效獲得此訊息。用資料透過Semantic Segmentation Suite訓練SegNet，易於調試和修改，從而節省算力。

另外，語義分割訊息不是來自外部神經網路。它是使用Unity中的著色器生成的，使用標籤對對象進行分段。這意味著智慧體在訓練期間可以快速接收有關對像類的可靠，無噪聲的訊息。

機器人認知的核心是「大腦」，這是決定智慧體如何行動的部分。鑑於當前的環境狀況和要實現的目標，採用以下兩種方法：

另外，利用Unity ML-Agents提供的另外兩個解決方案：

到目前為止，智慧體已經設法自己弄清楚了這兩項任務。但只是為了好玩（或者為了加快訓練過程），可以「寫死」第二個目標。關於是否啟動抓取機制設定一個簡單的函數，它考慮了兩個因素：我們面前的對像類（由語義分割圖定義）；物體與機器人的距離（由深度圖提供）。

此功能可以透過以下方式進行寫死：從當前深度圖中，僅濾除屬於「可收集」類的那些。另外檢查像素最大值是否大於某個設定閾值。如果是，可收集物體足夠接近智慧體，完成收集。

▲ 啟發式背後的決策

以上模擬在虛擬環境中有較好的效果，但是如果想要大規模的應用到商業，還需一系列的改進。

Damian也給出了一些自己的想法：

安裝一系列用於垃圾回收的硬體，在機械設計上應該考慮到足夠的細節，例如安裝一個「鏟子」，可以無縫地將垃圾推入機器人的「腹部」，又或者在容器滿了之後，如何處理垃圾。
將該演算法部署在一台能夠處理即時語義分割的機器上，語義分割模型的推理時間太慢，一般的筆記型電腦無法進行即時算繪。
用RealSense攝像機將訊息從算繪平台傳遞給真實的機器人，這一部分工作是將在物理環境中部署機器人，這意味著透過在現實世界中運行機器人來微調演算法，目前，強化學習在機器人技術中的應用還處於實驗階段。