摘要:爲了開發用於此類併發性控制問題的算法框架,研究者從連續時間的貝爾曼方程開始,隨後以考慮系統延遲的方式進行離散化。此外,研究者在現實世界機器人抓取任務中,對比了併發模型和阻塞模型的定性策略行爲,如圖 3b 所示。

選自arXiv

作者:Ted Xiao 等

機器之心編譯

機器之心編輯部

RL 算法通常假設,在獲取觀測值、計算動作並執行期間環境狀態不發生變化。這一假設在仿真環境中很容易實現,然而在真實機器人控制當中並不成立,很可能導致控制策略運行緩慢甚至失效。爲緩解以上問題,最近谷歌大腦與 UC 伯克利、X 實驗室共同提出一種併發 RL 算法,使機器人能夠像人一樣「邊做邊思考」。目前,該論文已被 ICLR 2020 接收。

該研究在如下情況中研究強化學習:在受控系統隨着時間演變的過程中同時對動作進行採樣。換句話說,所研究的機器人必須在執行着上一個動作的同時考慮下一個動作。就如同人或動物一樣,機器人必須同時思考及行動,在上一個動作完成之前決定下一個動作。

爲了開發用於此類併發性控制問題的算法框架,研究者從連續時間的貝爾曼方程開始,隨後以考慮系統延遲的方式進行離散化。通過對現有基於價值(value-based)的深度強化學習算法進行簡單的架構擴展,該團隊提出了一類新型近似動態規劃方法,並在模擬基準任務和大規模機器人抓取任務上進行了評估(機器人必須「邊走邊思考」)。

以下分別爲該方法在仿真與真實機器人上的運行效果:

論文地址:https://arxiv.org/abs/2004.06089

項目網頁:https://sites.google.com/view/thinkingwhilemoving

並發動作環境

下圖(a)表示在阻塞環境(blocking environment)中,動作以順序阻塞的方式執行,假設在獲取狀態與執行動作之間環境狀態不發生變化。我們也可以將其理解爲:從智能體的角度看來,獲取狀態與推斷策略是瞬間完成的。與此相反,圖(b)中表示的併發環境(concurrent environment)在獲取狀態與推斷策略之間並沒有假設環境不變,而是允許環境在此期間發生變化。

阻塞環境與併發環境中不同階段的執行順序對比圖。

基於價值的連續與離散併發強化學習算法

研究者從連續時間強化學習的角度開始探索,因爲它可以輕鬆地表示系統的併發特性。之後研究者證明,基於連續情況得出的結論同樣適用於隨後在所有實驗中使用的更爲常用的離散環境。

連續環境方程

爲了進一步分析併發環境,研究者引入下列符號。智能體在一個週期內選擇 N 個動作軌跡(a_1 , ..., a_N),其中每個 a_i(t) 爲一個用於產生控制,並以時間 t 作爲變量的連續函數。令 t_{AS} 爲獲取狀態、推斷策略與任意額外通信時延的間隔時間。在 t 時刻,智能體開始計算狀態 s(t) 的第 i 個動作 a_i(t)。同時,在時間間隔 (t − H + t_{AS},t+t_{AS}) 內執行之前選取的動作 a_{i−1}(t)。在 t+t_{AS} 時刻(t ≤ t+t_{AS} ≤ t+H),智能體切換到去執行來自 a_i(t) 的動作。併發環境下的連續 Q 函數可表示如下:

前兩項分別對應執行 (t,t + t_{AS}) 時刻的動作 a_{i−1}(t) 和 (t + t_{AS},t + t_{AS} + H) 時刻動作 a_i(t) 的期望折扣回報。通過對隨機方程 p 進行採樣,可獲得一個僅關於策略 rollouts 的單樣本(single-sample)蒙特卡洛估計器 Q:

接下來,對於連續時間情形,研究者定義了一個新的併發貝爾曼 backup 算子:

以上算子將貝爾曼算子擴充爲考慮並發動作的情形,研究者證明改進後的算子保持了其吸引域的特性,這對於 Q-learning 的收斂性至關重要。

離散環境方程

爲了簡化離散情形下的符號(此時動作方程 a_i(t) 與該方程在 t 時刻的值 a_i(t) 並非必需),研究者將當前狀態設置爲 s_t,將當前動作設置爲 a_t,將上一時刻動作設置爲 a_{t−1}(分別將其下標 i 替換爲 t)。在以上符號記法下,研究者定義了離散情形下的併發 Q 方程:

其中 t_{AS′} 爲動作 a_t 在 t + t_{AS} 時刻開始執行時的「溢出間隔」(spillover duration)。於是,併發貝爾曼算子(以下標 c 表示)爲:

與連續情形類似,研究者也證明了該離散貝爾曼算子是一個吸引域。

實驗結果

簡單一階控制問題

首先,研究者通過對標準的 Cartpole 和 Pendulum 環境的併發版本進行控制變量研究,說明了併發控制範式對基於價值的 DRL 方法的影響。

爲了估計不同併發知識表示的相對重要性,研究者分析了每種併發知識表示對其他超參數值組合的敏感性,如下圖所示:

Cartpole 和 Pendulum 環境中的實驗結果。

大規模機械臂抓取任務

接下來,研究者分別在仿真與真實機械臂上進行了實驗。

圖 3:仿真和真實環境下的機械臂抓取任務圖示。

表 1 通過對無條件模型與併發知識模型進行比較總結了阻塞和併發模式的性能。併發知識模型能夠學習更快的軌跡,其週期持續時間與阻塞無條件模型相比減少了 31.3%。

表 1:大規模仿真機械臂抓取任務的實驗結果。

此外,研究者在現實世界機器人抓取任務中,對比了併發模型和阻塞模型的定性策略行爲,如圖 3b 所示。

如表 2 所示,這些模型在抓取成功方面性能相當,但是就策略持續時間而言,併發模型比阻塞模型快 49%(策略持續時間用來衡量策略的總執行時間,但不包括在週期持續時間中的基礎架構建立和拆除時間,併發操作無法對此優化)。

表 2:真實機械臂抓取結果。

本文爲機器之心編譯,轉載請聯繫本公衆號獲得授權。

------------------------------------------------

加入機器之心(全職記者 / 實習生): [email protected]

投稿或尋求報道:content @jiqizhixin.com

廣告 & 商務合作: [email protected]

相關文章