Google日前正在測試一個乒乓球機器人計畫,這個計畫被稱為i-Sim2Real。事實上,這個計畫不僅只是要與人類對打乒乓球而已,而是最終要建立一個可以與快節奏和相對不可預測的人類行為一起協同工作的系統。
利用乒乓球測試這個協同工作的系統是最好的方式,因為乒乓球本身就具有相當嚴格的限制(相對於打籃球或板球而言)和複雜與簡單的平衡的優勢。
“Sim2Real”是描述人工智慧創造過程的一種方式,其中機器學習模型被教導在虛擬環境或模擬中做什麼,然後在現實世界中應用這些知識。當需要多年的試驗和錯誤才能得出一個有效的模型時,這是很有必要的--在模擬中進行,可以在幾分鐘或幾小時內完成多年的即時訓練。
但是,在模擬中做一些事情並不總是可能的;例如,如果一個機器人需要與人互動呢?這不是那麼容易模擬的,所以你需要真實世界的資料來開始。你最終會遇到一個雞和蛋的問題:你沒有人類的資料,因為你需要它來製造人類將與之互動的機器人,並首先產生這些資料。
Google的研究人員通過簡單的開始和製造一個反饋回路來解決這個難題。
i-Sim2Real使用一個簡單的人類行為模型作為近似的起點,在模擬訓練和在現實世界中部署之間交替進行。在每次迭代中,人類行為模型和政策都會得到完善。
從人類行為的近似值開始是可以的,因為機器人也只是剛剛開始學習。每場比賽都會收集到更多真實的人類資料,從而提高精準性,讓人工智慧學習更多。
這種方法足夠成功,該團隊的乒乓球機器人已能夠連續對打340次。
它還能夠將球送回不同的區域,當然這並不是要求做到精準的物理精密程度,但是至少好到可以開始執行策略。
該團隊還嘗試了一種不同的方法,以實現更多的目標行為,比如從不同的位置將球返回到一個非常具體的地方。同樣,這並不是要創造終極乒乓球機(儘管這很可能是一個結果),而是要找到有效訓練人類互動的方法,而不是讓人們重複成千上萬次的相同動作。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!