原標題:在機器人領域使用元學習探索進化方向

文 / Google 機器人團隊軟件工程師 Xingyou (Richard) Song 和 AI 研究員 Yuxiang Yang

精準度更高的模擬器引擎飛速發展,爲機器人技術研究人員帶來了獨特機會,可以生成足夠的數據來訓練機器人策略,從而完成在現實中的部署。但是,由於模擬域和實際域之間存在細微差異(稱爲“現實差距”),如何實現訓練策略的“從模擬到現實”的遷移仍然是現代機器人技術面臨的最大挑戰之一。儘管近期的一些學習方法,如模仿學習和離線強化學習等,利用已有的數據來制定策略以解決“現實差距”,但更常見的做法是直接通過改變模擬環境的屬性來提供更多數據,這一過程稱爲域隨機化(Domain Randomization)。模擬器引擎 https://pybullet.org/wordpress/域隨機化 https://arxiv.org/abs/1703.06907

然而,域隨機化會以性能爲代價來保持穩定性,因爲此過程嘗試對所有任務進行優化,尋求一個整體表現良好且穩定的策略,但對改進 特定任務 上的策略並未提供足夠的空間。模擬與現實環境之間缺乏通用的最優策略,這是在機器人運動應用中經常會遇到的問題,因爲在實際應用中常有多種不同的力在發揮作用,如腿部摩擦力、重力和地形差異的影響等。舉例來說,假設機器人的位置和平衡具有相同的初始條件,則最佳策略將由表面類型確定——對於在 模擬 環境中遇到的輸入爲平坦的平面,機器人加快行進速度,而對於 現實世界 中的崎嶇路面,機器人應緩慢而小心行走,以防止跌落。

在《 通過進化元學習快速適應行走機器人》 (Rapidly Adaptable Legged Robots via Evolutionary Meta-Learning) 一文中,我們介紹了一種基於 進化策略(Evolutionary Strategies) 的特殊元學習方法,此方法通常被視爲僅在模擬環境下有效,而我們可以按完全無模型的方式高效使用此方法,使得策略能夠很好地適應現實環境中的機器人。與之前適應元策略(例如不允許從模擬到現實的應用的標準策略梯度)的方法相比,進化策略 (ES) 可支持機器人快速克服“現實差距”並適應現實環境中的動態變化,而且其中一些變化情況在模擬環境中可能不會出現。這是成功使用 ES 實現機器人適應的第一個實例。 通過進化元學習快速適應行走機器人 https://arxiv.org/abs/2003.01239進化策略 https://openai.com/blog/evolution-strategies/

我們的算法可快速調整行走機器人的策略,使其適應動態變化:在此示例中,電池電壓從 16.8 伏降至 10 伏,從而可降低電動機功率,同時,我們也在機器人的側面放置了一塊 500 克的物體,以此使其開始轉彎而不是直線行走。此策略僅需 50 個回合即可適應(或 150 秒的實際數據)

元學習

此研究屬於 元學習 (Meta Learning) 技術範疇,並在行走機器人上得到證明。在較高層次上,元學習可通過將過去的經驗與少量來自輸入任務的經驗相結合,學習快速解決輸入任務,而無需從頭開始進行再訓練。在從模擬到現實的情境下尤其適用,其中 多數 過去的經驗都是以較低成本從模擬中獲得,而從現實世界中的任務習得的經驗雖少,但極爲重要。 模擬經驗使策略具有解決任務分配的一般行爲水平,而現實經驗使策略能夠專門針對當前的具體實際任務進行 微調 。 元學習 https://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/

爲訓練策略進行元學習,必須要促進策略在模擬期間進行適應。一般來說,可通過應用 模型無關的元學習(MAML) 來實現這一目標,此模型可使用少量任務特定的數據來搜索可快速適應特定任務的元策略。計算此類元策略的標準方法是使用 策略梯度方法,此方法旨在提高相同狀態下選擇相同動作的可能性。爲確定選擇指定動作的可能性,該策略必須 具有隨機性 ,從而使此策略選擇的動作具有隨機要素。部署此類機器人策略的現實環境也 高度隨機 ,因爲即使從完全相同的狀態和動作序列開始,也會自然產生輕微的運動差異。在隨機環境中使用隨機策略這一組合會產生兩個相互衝突的目標:

降低策略的隨機性可能至關重要,否則策略動作產生的額外隨機性可能會加劇高噪聲問題。 但是,增加策略的隨機性也可能有益於探索,因爲策略需要使用隨機動作來探測其要適應的環境類型。

這兩個相互衝突的目標(之前的 文章中已有提及)既要降低又要提高策略的隨機性,因而可能導致問題變得複雜。 模型無關的元學習 https://arxiv.org/abs/1703.03400策略梯度 https://papers.nips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf文章 http://proceedings.mlr.press/v32/silver14.pdf

機器人領域中的進化策略

爲替代上述方法,我們通過應用 ES-MAML解決了這些挑戰,此算法利用截然不同的範例實現高維優化,即進化策略。ES-MAML 方法僅根據智能體在環境中收集的獎勵總和來更新策略。用於優化策略的函數是 黑盒 ,可將策略參數直接映射到此獎勵。與策略梯度方法不同,此方法不需要收集狀態/動作/獎勵元組,也無需估計動作的可能性。因此,可使用 確定性 策略和基於 參數 更改的探索,並能夠避免策略和環境隨機性之間出現衝突。 ES-MAML https://arxiv.org/abs/1910.01215

在這一範例中,查詢通常涉及在模擬器內執行的多個回合,但我們發現 ES 也可以應用於在實際硬件上收集的回合。ES 優化可輕鬆進行部署,也非常適合用於訓練 高效緊湊的策略,這一現象在機器人領域具有深刻意義,因爲參數較少的策略能夠更容易地部署在實際硬件上,且通常可以提高推理效率並降低功耗。通過學習參數少於 130 個的適應性元策略,我們確認 ES 在訓練緊湊型策略方面具備有效性。 高效緊湊的策略 https://arxiv.org/abs/1804.02395

ES 優化範例具有非常高的靈活性,可用於優化不可微分的目標,例如我們的機器人示例中的總獎勵目標。同時,在具有大量(存在潛在對抗性)的噪聲環境下, 此優化也能工作。此外,最新形式的 ES 方法(如 引導式 ES)比前代版本具有更高的採樣效率。 此優化也能工作 https://arxiv.org/abs/1903.02993引導式 ES http://papers.neurips.cc/paper/9218-from-complexity-to-simplicity-adaptive-es-active-subspaces-for-blackbox-optimization.pdf

這樣的靈活性對於運動元策略的高效適應至關重要。我們的實驗結果表明,使用 ES 進行自適應可通過少量的其他機器人回合來實現。因此,ES 不再只是最先進算法的一種絕佳替代方法,而是代表處理數項高難度 RL 任務的最新技術水平。

模擬環境下的適應

我們首先研究了在模擬環境下使用 ES-MAML 進行訓練時出現的適應類型。在模擬環境下測試策略時,我們發現,當動態條件變得過於不穩定時,元策略會迫使機器人跌倒,而適應後的策略則可使機器人恢復穩定並再次行走。此外,當機器人的腿部環境發生更改時,元策略會使機器人的腿無法保持同步,進而導致機器人急轉彎,而適應後的策略則會糾正機器人,使其可以再次直行。

在面對困難動態任務時遇到問題的元策略步態。左:元策略導致機器人跌倒;中間:適應後的策略可確保機器人繼續正確行走;右:機器人高度的比較測量

機器人的腿部環境更改時的元策略步態。左:元策略使機器人向右側轉彎;中間:適應後的策略可確保機器人繼續沿直線行走;右:機器人行走方向的比較測量

現實環境中的適應

儘管 ES-MAML 在模擬環境中表現出色,但將其應用於現實環境中的機器人仍然存在挑戰。爲了使其有效適應現實世界的噪聲環境,同時儘量少使用現實世界的數據,我們引入了 批量爬山算法 ,此算法是在 早期研究成果之上構建的 ES-MAML 附加組件,用於零階黑盒優化。與根據確定性目標以迭代方式逐個更新輸 入的爬山算法不同, 批量爬山算法 對並行查詢 批次 進行採樣,以此確定下一個輸入,從而使其對目標內的大量噪聲具有魯棒性。 早期研究成果 https://arxiv.org/abs/1911.06317

我們隨後在以下 2 個任務上測試了此方法,而這些任務旨在從機器人的常規環境入手,顯著改變動態條件:

在質量電壓任務(左)中,我們將 500 克重物放置在機器人的一側,並將電壓從 16.8 伏降至 10.0 伏。在摩擦任務(右)中,我們用網球替代橡膠腳,以大幅減少摩擦並阻礙行走

在質量電壓任務中,由於額外增加質量和電壓變化,初始元策略使機器人明顯向右轉向,進而導致機器人的身體和腿部電機失去平衡。但是,在使用我們的方法學習適應 30 個回合之後,機器人能夠端正行走姿勢,在 50 個回合之後,機器人能夠完全保持身體平衡,並且可以行走更長的距離。相比之下, 僅在模擬環境下 通過簡單無噪聲任務從頭開始訓練大約需要 90,000 個回合,這表明我們的方法可顯著降低昂貴的現實數據的樣本複雜性。

質量電壓任務中適應階段的質變

我們僅將我們的方法與域隨機化方法以及針對 MAML 的標準策略梯度方法 (PG-MAML) 進行對比,定性地給出了最終策略及來自現實環境機器人的指標,進而展示我們的方法的適應效果。我們發現,域隨機化和 PG-MAML 基準的適應效果均不如我們的方法理想。PG-MAML https://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/

域隨機化和 PG-MAML 之間的比較,以及我們方法的元策略和適應後策略之間的指標差異。上:質量電壓任務對比,我們的方法可穩定機器人的側傾角;下:摩擦任務對比,我們的方法可實現更長的軌跡

未來工作

這項工作爲將來的開發提供了幾種途徑。其中一種選擇是對算法進行改進,以減少適應所需的現實環境部署數量。另一個需要改進的領域是將基於模型的強化學習技術用於終身學習系統,在此係統中機器人可以持續收集數據並快速調整其策略,從而學習新技能並在新環境中以最佳的狀態運行狀態。

致謝

此項研究由 ES-MAML 核心團隊完成:Xingyou Song、Yuxiang Yang、Krzysztof Choromanski、Ken Caluwaerts、Wenbo Gao、Chelsea Finn 和 Jie Tan。此外,我們要特別感謝 Vikas Sindhwani 對 ES 方法給予的支持,以及 Daniel Seita 對本文提出的反饋意見。

相關文章