摘要:最後,關於這個垃圾分類機器人的三種學習方式,相關的論文、技術博客鏈接如下。想讓機器人學會垃圾分類,需要用到感知、移動和操作,藉助計算機視覺技術進行感知以及幫助機器人前行的自動駕駛能力都是業界熟悉的,但如何學會在複雜環境中用“手”拉開櫃子、打開抽屜、撿走垃圾則是必須要讓機器自行學會的操作。

郭一璞 發自 凹非寺

量子位 報道 | 公衆號 QbitAI

從上海,到北京,每個城市都在搞垃圾分類。

幹垃圾、溼垃圾、有害垃圾,豬不能喫、豬能喫、豬喫了會死……你是不是還在爲這些垃圾分別是什麼而苦惱呢?

要是能自動給垃圾分類就好了。

Alphabet X,就是之前孵化了無人車的Google X,終於造出了 垃圾分類機器人

這些機器人可以把垃圾分類、把分錯類的垃圾放到正確的地方,還能在辦公室裏遊走撿垃圾。

比如,放錯地方的礦泉水瓶,機器人可以撿起來放到正確的地方去:

放錯地方的易拉罐,也要讓它和別的罐罐在一起:

他們在Alphabet公司的辦公室測試後,發現這臺機器人可以顯著降低垃圾造成的污染,將本能回收利用卻被送去垃圾填埋場的垃圾佔比從 20% 降到 不到5%

怎麼做到的

想讓機器人學會垃圾分類,需要用到感知、移動和操作,藉助計算機視覺技術進行感知以及幫助機器人前行的自動駕駛能力都是業界熟悉的,但如何學會在複雜環境中用“手”拉開櫃子、打開抽屜、撿走垃圾則是必須要讓機器自行學會的操作。

因此,Alphabet X用到了三個方法來讓機器人學會靈活用“手”。

跟人類學習

第一種是跟人類學習,模仿人類的動作和做法。

這裏就用到了 Play-LMP 算法,它在沒有特定數據集訓練的情況下,讓機器人跟人類的演示學習,最終實現平均成功率85.5%。

學出來的成績,大概是這樣的,左邊是任務要求,右邊是執行過程:

跟其他機器人學習

和其他機器人學習是通過無模型的強化學習,讓許多個機器人共享經驗。

具體的實現方式是這樣的:

讓機器人學習藉助門把手開門這個技巧,一起學習的每個機器人都裝了一份神經網絡,並且他們每臺機器人都連到了一箇中央服務器上。

每個機器人開始對着這個門和門把手琢磨,摸索着考慮怎麼開。

這個過程中,每個機器人每一步的行動和結果都被傳輸到背後的中央服務器上,中央服務器裏的神經網絡就開始藉助這些傳輸來的經驗,迭代改進神經網絡。

這樣整個過程就好像司令部派了幾個士兵出去偵查,再把每個士兵送回來的線索彙總,形成整體的作戰思路,再告訴士兵們應該如何如何行動。

所以改進之後,機器人們就都學會了開門這項技能。

在雲端學習

機器人要撿垃圾,必須學會靈活的使用自己的“手”來抓東西,要不斷的練習,有大量數據來訓練模型纔可以。

現實世界裏,機器人一天只能練習5000次抓取,數據量是遠遠不夠的。

而藉助 隨機到規範適應網絡 (Randomized-to-Canonical Adaptation Networks,簡稱RCANs),在雲中模擬訓練的數據就可以用在模型的實際訓練中,這樣機器人抓物體的成功率就提升到了70%。

之後,再結合5000次在現實世界抓取的數據,對模型進行微調,成功率就到了91%。

這個過程,相當於在真實世界抓了58萬次的結果,一下子省了99%的練習次數。

這樣,原來需要花3個月的時間來訓練機器人學習抓取,現在只要不到一天就可以了。

另外,這篇論文也發了今年的CVPR。

結構化和非結構化環境裏的機器人

現在的機器人領域內,雖然有不少成熟的機器人,但它們都是技能專精、價格昂貴的。

他們在工廠流水線上這種單一而 結構化 環境裏,用非常高的效率處理某一項任務,但無法在每天情況都不一樣、複雜而 非結構化 的生活環境中解決洗衣做飯這些麻煩的任務。

Alphabet X的最終目標是造出可以在日常生活中使用的機器人,比如它可以在家裏疊疊被子洗洗碗,在辦公室裏端茶倒水取外賣……每天都會用到,所以這個項目也因此被叫做 Everyday Robots

不過,其難度可想而知。

美國國家公路交通安全管理局給出了這張示意圖。

橫軸左側是執行專精的任務,右邊是日常的多種複雜任務;縱軸下半部分是在結構化的環境中,上半部分是在非結構化的環境中。

顯然,右上角那種在各種複雜環境都能隨機應變、十八般武藝樣樣都行的機器人,人類創造它的難度要遠遠高於左下角只會在流水線上固定位置完成固定任務的工業機器人。

而在右上方象限內,就有正在發展中的自動駕駛汽車,Everyday Robots,要比自動駕駛的難度更上一個量級。

傳送門

最後,關於這個垃圾分類機器人的三種學習方式,相關的論文、技術博客鏈接如下。

跟人類學習

Learning Latent Plans from Play

作者:Corey Lynch, Mohi Khansari, Ted Xiao, Vikash Kumar, Jonathan Tompson, Sergey Levine, Pierre Sermanet

https://learning-from-play.github.io/

跟其他機器人學習

https://ai.googleblog.com/2016/10/how-robots-can-acquire-new-skills-from.html

在雲端學習

Sim-to-Real via Sim-to-Sim: Data-efficient Robotic Grasping via Randomized-to-Canonical Adaptation Networks

作者:Stephen James, Paul Wohlhart, Mrinal Kalakrishnan, Dmitry Kalashnikov, Alex Irpan, Julian Ibarz, Sergey Levine, Raia Hadsell, Konstantinos Bousmalis

https://arxiv.org/abs/1812.07252

如果你也在做類似的研究,不放複製鏈接參考一下~

版權所有,未經授權不得以任何形式轉載及使用,違者必究。

相關文章