編者按:強化學習正在遊戲領域中被廣泛應用,其中基於分佈擬合的強化學習算法是目前性能最好的一類方法。在這類方法中,如何參數化收益分佈是算法設計的核心問題。現有的參數化方法在對累積概率分佈進行擬合的時候,往往是選擇固定的分位點概率或者隨機採樣的分位點概率。但是不同分位點概率帶來的擬合誤差往往差別很大。爲了更好的擬合收益分佈,微軟亞洲研究院提出了可自適應的累積分佈分位點概率,可以找出對於擬合累積分佈函數最關鍵的幾個分位點概率,實現了全參數化的分位函數,大大提升了對收益分佈的擬合能力。

目前,強化學習正廣泛應用於遊戲領域。由於遊戲環境本身的不確定性,玩家(agent)的總收益(return)實際上是一個隨機變量,而強化學習的目標則是找到能最大化該隨機變量的期望的策略。近年來,強化學習領域的研究者發現,在深度強化學習中,相比於僅僅考慮總收益的期望,逼近總收益這個隨機變量的分佈能夠帶給網絡更多信息。基於分佈擬合的一系列算法,C51、QR-DQN、IQN 在常用的遊戲測試環境 Atari Game 上取得了非常大的突破。

如何參數化收益分佈是基於分佈的強化學習算法(distributional reinforcement learning)的核心問題,現有工作中對分佈的擬合往往是在固定的幾個點上。比如,在最早提出的 C51 算法中,計算了總收益爲-10到10之間均勻分佈的51個值的各自的概率。而在隨後的 QR-DQN 工作中,目標從概率分佈函數成爲了擬合累積分佈函數,計算在0到1之間均勻分佈的分位點概率(quantile fraction)所對應的分位點值(quantile value)。這些均勻分佈的位置顯然對擬合分佈是有很大限制的,並沒有將分佈完全的參數化表示。因此隨後提出的 IQN,對隨機採樣的分位點概率進行擬合,在網絡中建模了從分位點概率到分位點值的映射,效果也十分明顯,超越了過去所有的算法。

微軟亞洲研究院在此基礎之上,提出了可自適應的累積分佈分位點概率位置,可以找出對於擬合累積分佈函數最關鍵的某幾個分位點概率,從而將分佈函數完全地參數化,大大提升了對分佈函數的擬合能力。現有的工作通常只參數化了概率軸或者價值軸,我們的算法能夠同時學習分位點概率位置和分位值, 同時參數化了分佈函數的兩個軸,因此我們的算法稱爲全參數化的分位函數(Fully-parameterized Quantile Function),簡稱FQF。FQF 在 Atari Game 中也超越了 IQN,取得了當前非分佈式(non-distributed)算法中最高的分數。值得一提的是,當前取得最高分數的分佈式(distributed)算法使用的數據樣本遠遠多於 FQF。

全參數化分佈

FQF 的核心思想是最小化擬合分佈與目標分佈的 Wasserstein 距離,其定義即爲圖1所示的分位函數(即累積概率分佈函數的反函數)與其階梯狀擬合陰影部分面積。

圖1:在兩組隨機採樣的分位點下的累積概率分佈(Cumulative Distribution Function, CDF)的逆函數, 分位函數(quantile function)的不同的擬合誤差(陰影部分面積)

圖1中藍色曲線爲真實分佈,左圖爲一組良好的分位點概率下擬合出的階梯狀分佈,而右圖爲隨機的分位點概率位置下擬合出的階梯狀分佈。可以看到,良好與非良好之間帶來的差距是極大的,這種差距會直接影響到對總收益期望的估計。因此,找到良好的分位點概率位置對擬合分位函數至關重要。

顯然,找到良好的分位點概率位置中最複雜的一步便是計算上圖中的陰影部分面積。計算該面積會涉及到積分,在實際算法實現中不僅耗費資源而且必然存在誤差。但是在推導了最小化陰影面積所對應的分位點取值後,該陰影面積有了一個良好的數學形式,使得其對分位點概率位置的導數中不包含積分,從而避免大量計算。

基於上述優化方法,我們提出了預測最優概率位置的網絡(fraction proposal network)來預測對每個狀態最優的分位點概率(quantile fraction)。基於合理選擇的分位點概率,我們參考IQN中對該概率做嵌入(embedding)後送入分位數計算網絡(quantile function network),採用 Quantile Huber Loss 進行更新,便可以得到完整的上述的階梯狀分佈擬合。

圖2:分位點概率生成網絡(fraction proposal network)和分位數計算網絡(quantile function network) 以及迭代更新流程

實驗結果

表1:全參數化分佈算法(FQF)在 Atari Game 環境上與其它強化學習算法的對比

表1爲全參數化分佈算法(FQF)對比其它強化學習算法在 Atari Game 環境上的實驗結果。目前在非分佈式的強化學習算法中,全參數化分佈算法取得了最好的成績。而在通過表2的訓練初期遊戲實際畫面我們也可以看到,由於在不同狀態時總收益的分佈都不同,所對應的良好分位點概率位置也都不同。

表2:IQN 和 FQF 在不同分位點數目(N)下在某6個 Atari Game 上的平均分數

對比隨機選擇分位點概率位置的 IQN,可以看到當所選分位點概率個數較小的時候,兩者差距較大,當選擇個數較多的時候差距縮小,這符合隨機取樣的特性。

圖3:在某次遊戲的路徑上,相鄰分位點的概率之差

圖3中不同顏色的曲線代表着不同的相鄰分位點概率位置的差值,比如綠色曲線代表第二個分位點與第一個分位點的概率之差。可以看到,在畫面中有一個人和有兩個人的時候,我們的網絡給出的分位點概率位置是非常不同的,在分位點概率之差的曲線上會有一個跳變。更詳細的差值變化請觀看下方視頻。

結語

機器學習中往往有需要擬合的目標,而強化學習的不同之處在於,這個目標(總收益)的真值是未知的。在基於神經網絡的強化學習中,刻畫目標的多維屬性(分佈)能夠比刻畫單一屬性(期望)更加有效地學習。而受限於網絡無法刻畫無窮多維的屬性,選擇刻畫哪些屬性才能更好的描述目標就顯得尤爲重要。

該篇論文從減小分佈擬合誤差的角度出發,提出了一種全參數化的分佈,有效刻畫了總收益分佈,在強化學習環境中表現出了優異的性能。在其他領域中,刻畫多維屬性的方法也能夠提供非常大的幫助。比如我們熟悉的知識蒸餾就是非常典型的從單一目標屬性出發,刻畫多維屬性的例子。相信這種思想在未來也能夠應用於各個領域。

瞭解更多技術細節,請點擊閱讀原文查看論文:

Fully Parameterized Quantile Function for Distributional Reinforcement Learning

論文鏈接:https://arxiv.org/abs/1911.02140

相關文章