摘要:該研究提出的弱監督 RL 訓練框架 WSC 包含兩個階段:首先基於弱標註離線數據學習狀態的解糾纏表徵,然後使用解糾纏表徵來約束 RL 智能體的探索空間。在圖 6 中,我們看到解糾纏距離度量對較複雜的環境稍有幫助,但是與解糾纏潛在空間中具備目標生成機制的 WSC 完整方法相比性能不佳。

選自arXiv

作者:Lisa Lee等

機器之心編譯

機器之心編輯部

巨大的探索空間阻礙了強化學習(RL)的發揮,這篇論文通過弱監督學習從廣泛的目標空間中分離出有語義意義的表徵空間,從而增強 RL 的學習速度與泛化性能。

通用型智能體必須通過與真實環境交互來高效學習各種任務。典型的方法是人爲地定義一組獎勵函數,令智能體僅學習那些由獎勵函數誘導出的任務。然而,定義與調整這些獎勵函數需要耗費大量精力,並且使用者需要針對其關心的任務設置特定獎勵函數,這爲他們增添了額外的負擔。而設計一個既能提供充足學習信號又能在算法收斂時誘導正確行爲的獎勵函數,是非常有挑戰性的。

最近,來自 CMU、谷歌大腦和斯坦福大學的研究者發佈一項研究,展示瞭如何通過弱監督以最小負擔爲智能體提供有用信息,以及如何利用這些監督幫助智能體在環境中學習。研究者探索了一種在目標趨向強化學習(goal-conditioned RL)設置中使用弱監督的方法。

研究者提出的弱監督智能體不需要通過探索和學習來達到每個目標狀態,而是隻需學習沿着有意義的變化軸達到相應狀態,無需關注與解決人類指定任務無關的狀態維度。重點是,研究者提出通過弱監督來執行此類約束,而不是列舉目標或任務及其對應獎勵。

這項工作的主要貢獻是弱監督控制(weakly-supervised control,WSC),這是一個將弱監督引入 RL 的簡單框架。該方法學習一個有語義意義的表徵空間,智能體可以使用該表徵空間生成自己的目標,獲取距離函數,並執行定向探索。

WSC 包含兩個階段:首先基於弱標註離線數據學習狀態的解糾纏表徵,然後使用解糾纏表徵約束 RL 智能體的探索空間。

實驗結果表明,學習解糾纏表徵能夠加快強化學習在多種操作任務上的學習速度,並提高其泛化能力。此外,研究者還發現 WSC 能夠產生可解釋的潛在策略(latent policy),其潛在目標直接與環境的可控特徵保持一致。

論文鏈接:https://arxiv.org/abs/2004.02860

瞭解 WSC 之前你需要先知道這些

目標趨向強化學習

研究者團隊通過元組 (S, A, P, H, G) 定義有限時域下目標趨向的馬爾可夫決策過程,其中 S 是觀測空間,A 是動作空間,P (s′ | s, a) 表示一個未知動態函數,H 表示最大時間長度,G ⊆ S 表示目標空間。

在目標趨向 RL 中,研究者通過優化預期累積獎勵

來訓練策略 π_θ (a_t | s_t, g),從而在目標空間中達到目標 g〜G,其中 R_g(s) 是由目標 g ∈ G 和觀測值 s ∈ S 之間的距離度量定義的獎勵函數。

在低維度任務中,我們可以簡單地將獎勵視爲狀態空間中的負 ℓ_2 距離。然而,在高維度空間(如圖像)中定義距離度量更具挑戰性。先前關於視覺目標趨向(visual goal-conditioned)的 RL 工作訓練了一個額外的狀態表徵模型,例如變分自編碼器(VAE encoder)e^{VAE}:SZ^{VAE}。這些方法基於編碼狀態和目標訓練一個策略,並使用潛在空間中的 ℓ_2 距離來定義獎勵函數:

弱監督解糾纏表徵

該研究提出的方法在 RL 環境中使用弱監督解糾纏表徵學習。解糾纏表徵學習旨在學習數據的可解釋表徵,表徵的每一個維度度量一個獨特的變化因子(factor of variation),這些因子是數據生成的基礎(示例參見圖 2)。

圖 2:基於視覺的機械臂操作環境示意圖。

該研究使用一種叫作 rank pairing 的弱監督形式,其中數據集 D := {(s_1, s_2, y)} 由觀測值 {s_1 , s_2 } 與弱二值化標籤 y ∈ {0, 1}^K 組成,y_k = 1(f_k(s_1)

使用這些數據,Shu et al. (2019) 提出的弱監督方法通過優化以下損失函數訓練出編碼器 e : S Z、生成器 G : Z S 和判別器 D:

弱監督強化學習問題

問題描述

給定弱標註數據集 D: = {((s_1, s_2, y)},它由觀測值 {s_1, s_2} 和弱二值化標籤 y∈{0,1}^K 組成,其中 y_k = 1(f_k(s_1)

除了這些標籤外,使用者還可以指定索引子集 I ⊆ [K],用來表示哪些因子(f_1,...,f_K)∈ F 與解決某一類任務有關。在訓練期間,智能體可以與環境交互,但除了 D 中的弱標籤外不接受任何監督(即沒有獎勵)。

在測試階段,採樣未知的目標因子 f_I^∗ ∈ F_I,則智能體接收到目標觀測(如目標圖像),其因子等於 f_I^*。智能體的目標是學習 latent-conditioned RL 策略,以最小化目標距離

新方法:弱監督控制(WSC)

該研究提出的弱監督 RL 訓練框架 WSC 包含兩個階段:首先基於弱標註離線數據學習狀態的解糾纏表徵,然後使用解糾纏表徵來約束 RL 智能體的探索空間。

圖 3:WSC 框架示意圖。

從觀測中學習解糾纏表徵

研究者提出的解糾纏表徵學習基於上文介紹的 Shu et al. (2019) 方法構建。當然,理論上也可以使用其他類似的方法。該方法通過優化公式 1 中的損失函數來訓練編碼器、生成器和判別器。在訓練完解糾纏模型後,研究者丟棄了生成器與判別器,僅用編碼器來定義目標空間,並計算狀態之間的距離。

結構化目標生成與距離函數

該研究提出的新方法將目標空間定義爲學得的解糾纏潛在空間 Z_I,限制在索引 I 下。其目標採樣分佈的定義如下:

其中,Z^{min}_I 與 Z^{max}_I 分別表示對潛在值在元素層面上逐個取最小或最大。

在每一次迭代中,該方法從 p(Z_I) 中直接採樣潛在目標 z_g,或從 replay buffer 中採樣圖像觀測,並將其編碼爲解糾纏模型 z_g = e_I (s_g )。然後,執行該策略得到軌跡 (s_1, a_1, ..., s_T),從而嘗試該目標。在基於 replay buffer 採樣 transition (s_t, a_t, s_t+1, z_g) 時,研究者使用 hindsight re-labeling 和修改後的目標來提供額外的訓練信號。也就是說,研究者有時會使用修改後的目標 z′_g 重新標註 transition (s_t, a_t, s_t+1, z′_g)。

該方法將獎勵函數定義爲解糾纏潛在空間中的負 ℓ_2 距離:

整個 WSC 框架的僞代碼如下所示:

實驗

在圖 4 中,研究者團隊在 Sawyer 環境中的視覺目標趨向任務(參見圖 2)上,對比了其提出的新方法和先前的 SOTA 目標趨向 RL 方法。

圖 4:不同方法在視覺目標趨向任務上的性能隨訓練步的變化情況。弱監督控制(WSC)的學習速度超過之前的 SOTA 目標趨向 RL 方法(HER、RIG、SkewFit),尤其是在環境複雜性提高的情況下。因此,我們可以看到,在(學得的)語義解糾纏潛在空間中進行定向探索和目標採樣比在 VAE 潛在空間中進行純粹無監督的探索更加有效。

在圖 5 中,研究者評估了針對視覺目標趨向任務的訓練策略,並比較了每個時間步上的潛在目標距離與真實目標距離。

圖 5:研究者針對視覺目標趨向的任務推出策略,並比較潛在目標距離與對象和目標位置之間的真實距離。隨着環境變得越來越複雜(對象數量 n ∈ {1,2,3}),由 SkewFit 優化的潛在距離獎勵越來越無法顯示真實目標距離,而由 WSC 優化的解糾纏距離則更加準確。

接下來,該研究測試了僅在解糾纏空間中的距離度量能否快速學習目標趨向任務。在圖 6 中,我們看到解糾纏距離度量對較複雜的環境稍有幫助,但是與解糾纏潛在空間中具備目標生成機制的 WSC 完整方法相比性能不佳。

圖 6:SkewFit + DR 是一種變體,它在 VAE 潛在空間中對目標進行採樣,但使用的是解糾纏潛在空間中的獎勵距離。我們從圖中可以觀察到, 解糾纏距離度量在較複雜的環境中(例如 Push n = 3)可能會有所幫助。但是相比之下,WSC 的目標生成機制對於實現有效的探索至關重要。

機器之心 CVPR 2020 線上分享的第三期,我們邀請到騰訊優圖實驗室高級研究員 Louis 爲我們做主題爲《帶噪學習和協作學習:不完美場景下的神經網絡優化策略》的線上分享,歡迎讀者報名學習。

相關文章