每天一分鐘,帶你讀遍機器人頂級會議文章

標題:Learning to Sequence Multiple Tasks with Competing Constraints

作者:Anqing Duan, Raffaello Camoriano, Diego Ferigo, Yanlong Huang, Daniele Calandriello, Lorenzo Rosasco, and Daniele Pucci

來源:2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)

編譯:林只只

審覈:黃思宇,孫欽

這是泡泡一分鐘推送的第 518 篇文章,和歡迎個人轉發朋友圈;其他機構或自媒體如需轉載,後臺留言申請授權

摘要

模仿學習提供了一個通用框架,在該框架中,機器人可以從人類老師的演示中有效地學習新的運動技能。雖然已取得許多不錯的成果,但其中大多數只專注於單運動,而沒有考慮多任務排序的問題。可以想象,對不同的單元的任務進行排序可以進一步增強機器人的能力,並避免重複演示。在本文中,我們針對多任務排序問題,將重點放在處理競爭約束(competing constraints)上,該約束是基於笛卡爾和關節軌跡的並行約束產生的。具體來說,我們從信息理論的角度探索機器人的零空間,以便在連續任務之間進行過渡時保持模仿保真度。通過在iCub人形機器人上進行的模擬和真實實驗驗證了該方法的有效性。

圖1 提出的多任務排序方法的說明。首先,演示了幾個任務的笛卡爾軌跡和關節軌跡,隨後將其用於基於GMR的檢索概率軌跡。之後,根據激活函數π,將笛卡爾軌跡與高斯積融合在一起,並使用GMM對關節軌跡進行建模。最後,通過優化機器人零空間參數Θ處理競爭約束。

圖2 GMM對已展示的用於拾取和放置任務(上行)和清潔任務(下行)的笛卡爾軌跡進行建模。灰色軌跡表示多次試驗,紅色橢圓表示GMM中的高斯分量

圖3演示拾取和放置任務的關節軌跡的GMM建模(肩的翻滾角和偏航角,以及手肘),下一行爲清潔任務的。灰色軌跡代表多次試驗,紅色橢圓代表GMM中的高斯分量。

圖4 截圖:頂部行爲拾取和放置任務,底部行爲清潔任務。

圖5 笛卡爾軌跡排序(頂部行)及其相應的激活函數(底部行)。藍色軌跡代表拾取和放置任務,紅色軌跡代表清洗任務,綠色軌跡代表排序結果。

圖6 具有最佳零空間參數(OPT)和逆運動學(IK)的關節軌跡比較。還包括兩個任務的關節軌跡以供參考。

圖7 學習最佳零空間參數,基於KL散度的損失的誤差線曲線。豎線表示標準偏差

圖8 對兩個任務進行排序的結果截圖。基於最佳零空間參數的關節軌跡(底部行)的結果比起基於逆運動學的方法(頂部行)表現得更加自然。

Abstract

Imitation learning offers a general framework where robots can efficiently acquire novel motor skills from demonstrations of a human teacher. While many promising achievements have been shown, the majority of them are only focused on single-stroke movements, without taking into account the problem of multi-tasks sequencing. Conceivably, sequencing different atomic tasks can further augment the robot’s capabilities as well as avoid repetitive demonstrations. In this paper, we propose to address the issue of multi-tasks sequencing with emphasis on handling the so-called competing constraints, which emerge due to the existence of the concurrent constraints from Cartesian and joint trajectories. Specifically, we explore the null space of the robot from an information theoretic perspective in order to maintain imitation fidelity during transition between consecutive tasks. The effectiveness of the proposed method is validated through simulated and real experiments on the iCub humanoid robot.

相關文章