智東西(公衆號:zhidxcom)

編譯 | 楊暢

編輯 | 李水青

智東西6月15日消息,據美國科技媒體Tech Xplore報道,麻省理工學院、MIT-IBM沃森人工智能實驗室(MIT-IBM Watson AI Lab)和加州大學聖地亞哥分校的研究人員在今年5月的國際學習表徵會議(The International Conference on Learning Representations)上公佈了一款新的軟體模擬仿真軟件PlasticineLab,旨在讓機器人進行更直觀地學習。

機器人可以解魔方,可以在火星崎嶇的地形中前行,但是它們很難完成一些簡單的任務,比如擀麪皮或者拿起一雙筷子。即使有海量數據、清晰的說明和大規模訓練,機器人在完成孩子們可以輕鬆完成的任務時還是存在困難。

研究人員通過將物理世界的知識構建到模擬器中,希望能夠更輕鬆地訓練機器人擺弄現實世界的經常彎曲變形不能復原的物體和材料。

在PlasticineLab中,機器人通過模擬操縱各種柔軟的物體來感知學習如何完成一系列特定的任務。擀麪杖測試中,目標是讓機器人通過按壓或滾動擀麪杖壓平一塊麪團;繩索測試中,是要機器人完成將繩子纏繞到柱子上;在筷子測試中,是要機器人用筷子夾起一根繩子並移動到目標位置。

研究人員表示他們通過將現實世界中的物理知識嵌入模擬器來進行感知訓練,比在強化學習(Reinforcement Learning)算法下進行感知學習,可以讓機器人更快地完成這些和其他任務。這也使研究人員能夠利用基於梯度下降的優化技術來找到最佳的解決方案。

“將物理學基本知識寫入模擬器中,可以使機器人學習過程更高效。”該研究的主要負責人、前MIT-IBM沃森人工智能實驗室實習生、現在是加州大學聖地亞哥分校博士生的Zhiao Huang說:“這讓機器人對現實世界有更直觀的感知,瞭解現實世界充滿有生命的和可變形的物體。”

“機器人可能需要經過數千次迭代才能通過強化學習中的試錯技術來掌握一項任務,而這種強化學習方法通常用於在模擬中訓練機器人。”該研究的資深作者,IBM研究員Chuang Gan說:“我們通過補充一些物理知識可以更快完成機器人的訓練,允許機器人使用基於梯度的規劃算法來學習。”

通過名爲太極(Taichi)的圖形編程語言,研究人員將基本物理方程融入到PlasticineLab中。TaiChi和早期的PlasticineLab模擬器乾坤(ChainQueen)都是由合作者Yuanming Hu開發的。通過使用基於梯度的規劃算法,在PlasticineLab中機器人能夠不斷地將其目標與其在該點上所做的運動進行比較,從而更快地修正路線。

“與用於訓練神經網絡的技術相同,我們可以通過反向傳播找到最佳解決方案。”研究合作者、麻省理工博士生Tao Du說:“反向傳播爲機器人提供了更新其所需的反饋,使機器人更快地實現其目標。”

這項工作是一項持續研究的一部分,旨在賦予機器人更多的常識,以便他們有一天能夠在現實世界中做飯、打掃、疊衣服和執行其他日常的任務。

結語:當機器人“懂了”物理知識,能做的更多了

仿真模擬軟件是開發和評估技能學習算法的主要驅動力之一,現有的模擬環境軟件通常只能模擬剛體操作,PlasticineLab的出現使模擬軟體操作成爲可能。

機器人可以完成的事情越來越多了,無論是模仿人類動作還是超越人類表現方面,都有很多新進展。除了科學家要懂物理知識給機器人制造硬件外殼之外,機器人進行機器學習訓練的數據中也融入物理知識,來實現以前不能實現的動作。可能人類看來很簡單的動作,要讓機器人完成並不容易。衆多科學家的努力讓機器人能做的更多了。

相關文章