近年來,人工智能(AI)的發展勢頭從最初的興起逐漸走向平緩,現階段 AI 領域面臨的一個瓶頸就是十分依賴人工標註的數據,正如數據標註行業流行的那句話,“有多少智能,就有多少人工”。

如果可以讓機器人自己進行數據採集、數據分析,無疑可以節省很多人力。麻省理工學院(MIT)計算機科學系博士王少雄認爲能夠讓機器人學會自我分析是一件令他十分興奮的事情,“機器人可以利用自動化的方式自己重置系統,以及通過和物體交互的過程來自己學習”,他覺得這樣在數據標註方面可以節省很多人力。

今年,王少雄和另外一位一作王辰的一篇有關機器人可以自我採集觸覺數據並自我分析,最終能夠完成特定動作的論文獲得了機器人領域國際頂會 IROS 2020 的最佳論文獎。

下圖的機器人就是他們研究的成果,它叫 SwingBot,可以把它理解爲是一個 “甩筆” 機器人。它將這根筆由下到上翻轉了 180 度,這真的不是研究人員給它 “喂” 了大量的數據才建立的模型,這是它通過自我採集觸覺數據並學習分析後的結果。

這項研究來自於麻省理工學院(MIT)與上海交通大學的暑期聯合項目,論文題目爲 “SwingBot: Learning Physical Features from In-Hand Tactile Exploration for Dynamic Swing-up Manipulation”(SwingBot:從手部觸覺探索中學習物理特徵,以實現動態擺起操作)。

論文的兩位一作分別是王辰和王少雄,王辰剛剛本科畢業於上海交通大學、即將前往斯坦福大學攻讀計算機科學博士學位,少雄本科畢業於清華大學、目前是 MIT 計算機科學系在讀博士生。

“我們在思考怎樣才能讓機器人通過簡單的動作去感知手上握有物體的物理特性,比如物體的質量、重心,物體表面的摩擦力等,” 王辰告訴 DeepTech。

因爲人在做很多控制任務的時候,其實並不需要知道這些精確的物理參數,但是我們通過一些掂量的動作,就能夠感受到這個物體的特性,比如我們在看手機時,誰也不會拿手機的上部,因爲我們能感受到托住手機的下部纔是最省力的,但誰也無法分析出具體關於力的物理參數。

研究人員正想讓機器人通過自我學習來解決這樣的問題,讓它自我採集數據進行整合分析,不斷地學習,最終希望它不僅能分析出完成相關動作所需的物理參數,還能順利拿起未知物體完成指定動作。

如果說這篇論文的出彩之處是培養了機器人對觸覺的分析能力,那麼實驗中用到的觸覺傳感器則至關重要。

GelSight 觸覺傳感器:表面柔軟、分辨率高,能復刻整塊餅乾的形狀和紋理

GelSight 最初是爲測量目標表面的三維形狀和紋理而設計的,由覆蓋有反射塗層膜的透明彈性體板組成。當物體被壓在彈性體上時,薄膜會變形,呈現物體表面的形狀,但具有一致的反射率。例如研究人員以奧利奧餅乾爲例,將餅乾壓在彈性體板的表皮上,從後面看,薄膜能夠完全復刻出餅乾的形狀和紋理。

圖|將餅乾壓在彈性體板的表皮上。來源:[1]

王少雄告訴 DeepTech,“這個觸覺傳感器其實是一個非常新的處理系統,目前還處於研究階段,它最大的特點就是可以以整張圖像的形式輸入,而其它的傳感器可能只有十幾個電極,這就極大的豐富了觸覺的感知能力。”

王辰補充道,“GelSight 觸覺傳感器的一大優點是成本更低,而且能夠返回高密度的光學信息,能夠更好的獲得觸覺端對物體的感知情況。”

研究中用到的觸覺傳感器 GelSight 同樣出於 MIT 實驗室,最初是 MIT CSAIL 感知科學小組教授 Edward H. Adelson 2009 年的研究成果,近年來逐步研發並應用於機器人觸覺中。

圖 | GelSight 原型,CVPR 2009。來源:[1]

圖 | GelSight 運用於機器人觸覺,Sensors 2017。來源:[2]

在本篇論文中,研究人員將下圖中的傳感器安裝在機械臂的抓手上,以此來採集不同質量、重心物體的數據。

若要讓 Swingbot 很好地完成甩筆任務,雖然研究人員猜測質量、重心、摩擦力等參數可能會影響實驗結果,但是他們並不知道究竟是哪一部分佔主導作用,“所以需要機器人具備分析能力,我們希望它能夠通過傾斜以及抖動這些簡單的探索動作,自己從觸覺傳感器的反饋信息當中蒐集完成這個任務所需要的信息。” 王辰說道。

觸覺探索第一步:通過傾斜+搖晃,機器人得到不同筆的物理特徵

研究方法由兩個主要部分組成,一個信息融合模型和一個正向動力學模型。研究人員首先讓 SwingBot 執行兩個動作,分別是傾斜和搖晃,這是一種手持式物理特徵探測方法,幫助機器人進行觸覺探索。一旦機器人學會嵌入物體的物理參數,正向動力學模型就會通過特徵向量和控制參數來產生起擺運動,以實現最終的 “甩筆” 角度。

少雄說道,“我們想讓機器人去感覺一個未知的物體,通過讓它完成特定的操作來感知物體的物理信息,然後我們可以藉助這個物理信息應用到控制系統中。”

圖|機器人採取幾個步驟來獲取被持有對象的物理特徵

在訓練初始一定伴隨着很多困難,比如機器人總是拿不住筆,但這些都沒能難住他們。“我們在底下安裝了一個 V 型的槽,一方面它可以回收和接到飛出去的筆,另一方面它通過頂部的相機可以捕捉物體的一個位置,然後它可以去調節這個物體,讓它重新到最初的位置。通過這個方法就完全不需要人爲去參與。” 王辰告訴 DeepTech。

在機器人完成傾斜動作時,研究人員發現,當物體傾斜到一定的角度時能夠檢測出物體的質量,因此他們分別讓機器持筆傾斜到 20 度和 45 度,可以觀察到物體重量產生不同的力和扭矩分佈。這些觸覺反饋信息會通過一個卷積神經網絡(CNN)來輸出一個一維的特徵向量。

在機器人完成晃動任務時,從觸覺信號的時間序列中可以觀察到不同的摩擦和震動,研究人員用一個循環神經網絡(RNN)來處理獲得相應的特徵,可以獲取有關摩擦力和慣性矩的信息。

然後,一個由若干多層感知器(MLP)組成的信息融合模型會將以上兩步中收集到的物理特徵進行整合分析,得到一個低維的物理特徵概括,這也就是機器人獲取自我分析能力的基礎。

自我採集 1300 多組數據並分析,成功將筆甩至 90 度和 180 度

在機器人具備自我分析能力後,才迎來了研究的重點 —— 甩筆,這項任務看似單一且簡單,實則不然。

王辰告訴 DeepTech,甩筆其實是一個非常不穩定的任務,“剛開始的時候不僅需要四處撿筆,而且有時它根本不能把筆甩起來,或者甩不到我們想要的角度。在這個過程中,我們發現對於收集數據也非常困難。”

王辰還透露,機器人自我採集的數據一共有 1300 多組,包含 27 個不同物理特性的物體,採集這些數據用了大概一天的時間。“當完成採集時,這也是成功的訊號。”

圖|通過添加 / 摘除相關零件以及換不同摩擦係數的筆頭來製作不同物理特性的物體

最後一步就是讓學習了物理特徵的預測模型嘗試將那些未知特徵的筆甩到特定角度,對此,研究人員準備了 6 個測試對象,從機器人準備甩筆到完成特定的角度,整個過程只有 5 秒左右。

對於這些未知的物理特徵,SwingBot 也能成功完成指定動作,王辰稱,最終的誤差僅在 10 度左右。

圖|定量評價預測模型與物理嵌入的結果

研究人員證實了藉助這種融合模型,可以將多個探索動作獲取的信息組合到一個聯合嵌入空間中,以端到端的自我監督方式來訓練機器人,最終 SwingBot 能夠很好地完成甩筆動作。此外,該研究還表明,學習到的面向任務的特徵嵌入也可以成功地迴歸個體的物理特性,如質量、質心、慣性矩和摩擦。

關於未來的研究方向,王辰說道,“甩筆是一個比較簡單直觀可以理解的一個例子,但是這個觸覺分析的能力未來可以用在很多其他的任務上,不僅不單單只是這樣的一個甩筆任務。”

兩位一作

一次暑期研究的機會,二人通過郵件結識。就這樣,今年夏天剛剛從上海交通大學畢業的王辰和 MIT 計算機科學系在讀博士生王少雄開始了這次長達六個月的合作,而他們本身也都十分優秀。

圖|王辰

王辰在今年獲得了上海交通大學計算機科學學士學位,師從盧策吾教授。大學期間,王辰也參與了多次實習項目,他在 2018 年 6 月至 2019 年 8 月擔任斯坦福大學的研究實習生,Silvio Savarese、朱玉可和李飛飛都是他的導師。他還在 2018 年 1 月到 5 月期間參與 “Transferable Force-Torque Dynamics Model for Peg-in-hole Task” 項目的研究,研究成果也提交到了 IROS 2019。接下來,王辰即將前往斯坦福大學繼續攻讀計算機科學博士學位。

圖|王少雄

王少雄本科就讀於清華大學計算機科學與技術系,師從唐傑。畢業後他去到 MIT 繼續深造,目前是 MIT 計算機科學系在讀博士生。從 2016 年至今,王少雄共發表了六篇論文,除了本次的 SwingBot 項目獲得了 IROS 2020 最佳論文獎,今年 7 月他參與的研究的 “操縱電纜機器人” 項目(Cable Manipulation with a Tactile-Reactive Gripper)也入圍了機器人領域國際頂級會議 RSS 2020 最佳論文。

圖|操縱電纜機器人

最後,提到對於 AI 發展的前景以及對於通用人工智能(AGI)的暢想,二人直言沒有想那麼遠。“我們更多希望看到的是有一個實際的問題,然後知道這個問題的難點在哪裏,如何去解決它。因爲其實當下對於機器人控制的話,還有很多問題沒有解決,遠還沒有到去思考 AI 會不會像人一樣,總歸是一步步來。” 王辰說道。

相關文章