邊做邊思考，谷歌大腦提出併發RL算法，機械臂抓取速度提高一倍！

摘要：爲了開發用於此類併發性控制問題的算法框架，研究者從連續時間的貝爾曼方程開始，隨後以考慮系統延遲的方式進行離散化。此外，研究者在現實世界機器人抓取任務中，對比了併發模型和阻塞模型的定性策略行爲，如圖 3b 所示。

選自arXiv

作者：Ted Xiao 等

機器之心編譯

機器之心編輯部

RL 算法通常假設，在獲取觀測值、計算動作並執行期間環境狀態不發生變化。這一假設在仿真環境中很容易實現，然而在真實機器人控制當中並不成立，很可能導致控制策略運行緩慢甚至失效。爲緩解以上問題，最近谷歌大腦與 UC 伯克利、X 實驗室共同提出一種併發 RL 算法，使機器人能夠像人一樣「邊做邊思考」。目前，該論文已被 ICLR 2020 接收。

該研究在如下情況中研究強化學習：在受控系統隨着時間演變的過程中同時對動作進行採樣。換句話說，所研究的機器人必須在執行着上一個動作的同時考慮下一個動作。就如同人或動物一樣，機器人必須同時思考及行動，在上一個動作完成之前決定下一個動作。

爲了開發用於此類併發性控制問題的算法框架，研究者從連續時間的貝爾曼方程開始，隨後以考慮系統延遲的方式進行離散化。通過對現有基於價值（value-based）的深度強化學習算法進行簡單的架構擴展，該團隊提出了一類新型近似動態規劃方法，並在模擬基準任務和大規模機器人抓取任務上進行了評估（機器人必須「邊走邊思考」）。

‍

以下分別爲該方法在仿真與真實機器人上的運行效果：

論文地址：https://arxiv.org/abs/2004.06089

項目網頁：https://sites.google.com/view/thinkingwhilemoving

並發動作環境

下圖（a）表示在阻塞環境（blocking environment）中，動作以順序阻塞的方式執行，假設在獲取狀態與執行動作之間環境狀態不發生變化。我們也可以將其理解爲：從智能體的角度看來，獲取狀態與推斷策略是瞬間完成的。與此相反，圖（b）中表示的併發環境（concurrent environment）在獲取狀態與推斷策略之間並沒有假設環境不變，而是允許環境在此期間發生變化。

阻塞環境與併發環境中不同階段的執行順序對比圖。

基於價值的連續與離散併發強化學習算法

研究者從連續時間強化學習的角度開始探索，因爲它可以輕鬆地表示系統的併發特性。之後研究者證明，基於連續情況得出的結論同樣適用於隨後在所有實驗中使用的更爲常用的離散環境。

連續環境方程

爲了進一步分析併發環境，研究者引入下列符號。智能體在一個週期內選擇 N 個動作軌跡（a_1 , ..., a_N），其中每個 a_i(t) 爲一個用於產生控制，並以時間 t 作爲變量的連續函數。令 t_{AS} 爲獲取狀態、推斷策略與任意額外通信時延的間隔時間。在 t 時刻，智能體開始計算狀態 s(t) 的第 i 個動作 a_i(t)。同時，在時間間隔 (t − H + t_{AS},t+t_{AS}) 內執行之前選取的動作 a_{i−1}(t)。在 t+t_{AS} 時刻（t ≤ t+t_{AS} ≤ t+H），智能體切換到去執行來自 a_i(t) 的動作。併發環境下的連續 Q 函數可表示如下：

前兩項分別對應執行 (t,t + t_{AS}) 時刻的動作 a_{i−1}(t) 和 (t + t_{AS},t + t_{AS} + H) 時刻動作 a_i(t) 的期望折扣回報。通過對隨機方程 p 進行採樣，可獲得一個僅關於策略 rollouts 的單樣本（single-sample）蒙特卡洛估計器 Q：