DeepMind元梯度強化學習演算法，提高大規模深度強化學習應用的性能

新聞 05-31

近日，來自 DeepMind 的研究者 David Silver 等人發布論文，提出一種基於梯度的元學習演算法，可以在線調整元參數，使得回報既能適應具體問題，又能隨著時間動態調整以適應不斷變化的學習環境。

強化學習（RL）的核心目標是優化智能體的回報（累積獎勵）。一般通過預測和控制相結合的方法來實現這一目標。預測的子任務是估計價值函數，即在任何給定狀態下的預期回報。理想情況下，這可以通過朝著真值函數（true value function）的方向不斷更新近似價值函數來實現。控制的子任務是優化智能體選擇動作的策略，以最大化價值函數。理想情況下，策略只會在使真值函數增加的方向上更新。然而，真值函數是未知的，因此，對於預測和控制，我們需要將採樣回報作為代理（proxy）。強化學習演算法家族 [Sutton，1988；Rummery 和 Niranjan，1994；van Seijen 等，2009；Sutton 和 Barto，2018] 包括多種最先進的深度強化學習演算法 [Mnih 等，2015；van Hasselt 等，2016；Harutyunyan 等，2016；Hessel 等，2018；Espeholt 等，2018]，它們的區別在於對回報的不同設定。

折扣因子 γ 決定了回報的時間尺度。接近 1 的折現因子更關注長期的累計回報，而接近 0 的折現因子優先考慮短期獎勵，更關注短期目標。即使在明顯需要關注長期回報的問題中，我們也經常觀察到使用小於 1 的折扣因子可以獲得更好的效果 [Prokhorov 和 Wunsch，1997]，這一現象在學習的早期體現得尤為明顯。眾所周知，許多演算法在折扣因子較小時收斂速度較快 [Bertsekas 和 Tsitsiklis，1996]，但過小的折扣因子可能會導致過度短視的高度次優策略。在實踐中，我們可以首先對短期目標進行優化，例如首先用 γ= 0 進行優化，然後在學習取得一定效果後再不斷增加折扣 [Prokhorov and Wunsch，1997]。

我們同樣可以在不同的時間段設定不同的回報。一個 n 步的回報需要考慮 n 步中獎勵的累積，然後添加第 n 個時間步時的價值函數。λ-回報 [Sutton，1988；Sutton 和 Barto，2018] 是 n 步回報的幾何加權組合。在任何一種情況下，元參數 n 或 λ 對演算法的性能都很重要，因為他們影響到偏差和方差之間的權衡。許多研究人員對如何自動選擇這些參數進行了探索 [Kearns 和 Singh，2000，Downey 和 Sanner，2010，Konidaris 等，2011，White and White，2016]。

還有很多其他的設計可以在回報中體現出來，包括離策略修正 [Espeholt 等，2018，Munos 等，2016]、目標網路 [Mnih 等，2015]、對特定狀態的強調 [Sutton 等，2016]、獎勵剪裁 [Mnih 等，2013]，甚至獎勵本身 [Randl?v 和 Alstr?m，1998；Singh 等，2005；Zheng 等，2018]。

本論文主要關注強化學習的一個基本問題：便於智能體最大化回報的最佳回報形式是什麼？具體而言，本論文作者提出通過將回報函數當作包含可調整元參數 η 的參數函數來學習，例如折扣因子 γ 或 bootstrapping 參數 λ [Sutton，1988]。在智能體與環境的交互中，元參數 η 可以在線進行調整，使得回報既能適應具體問題，又能隨著時間動態調整以適應不斷變化的學習環境。研究者推導出一種實用的、基於梯度的元學習演算法，實驗表明它可以顯著提高大規模深度強化學習應用的性能。

DeepMind元梯度強化學習演算法，提高大規模深度強化學習應用的性能

圖 1：在各自的馬爾可夫獎勵過程（頂部）中，狀態依賴可調整參數（a）bootstrapping 參數 λ 或（b）折扣因子 γ 的元梯度學習結果圖示。在底部顯示的每個子圖中，第一幅圖展示了元參數 γ 或 λ 在訓練過程中的變化情況（10 個種子下的平均值 - 陰影區域覆蓋了 20％-80％）。第二幅圖顯示了每種狀態下 γ 或 λ 的最終值，分別指奇/偶狀態的高/低值（小提琴圖顯示不同種子的分布情況）。

DeepMind元梯度強化學習演算法，提高大規模深度強化學習應用的性能

表 1：與不使用元學習的基線 IMPALA 演算法相比，元學習折扣參數 γ、時序差分學習參數 λ，或學習二者的結果。研究者使用的是 [Espeholt et al，2018] 最初報告的折扣因子 γ= 0.99 以及調整後的折扣因子 γ= 0.995（見附錄 C）; 為了公平比較，研究者將元目標中的交叉驗證折扣因子 γ』設置為相同的值。

論文：Meta-Gradient Reinforcement Learning（元梯度強化學習）

DeepMind元梯度強化學習演算法，提高大規模深度強化學習應用的性能

論文鏈接：https://arxiv.org/abs/1805.09801

摘要：強化學習演算法的目標是估計和/或優化價值函數。然而與監督學習不同，強化學習中沒有可以提供真值函數的教師或權威。相反，大多數強化學習演算法估計和/或優化價值函數的代理。該代理通常基於對真值函數的採樣和 bootstrapped 逼近，即回報。對回報的不同選擇是決定演算法本質的主要因素，包括未來獎勵的折扣因子、何時以及如何設定獎勵，甚至獎勵本身的性質。眾所周知，這些決策對強化學習演算法的整體成功至關重要。我們討論了一種基於梯度的元學習演算法，它能夠在線適應回報的本質，同時進行與環境的互動和學習。我們將該演算法應用於超過 2 億幀 Atari 2600 環境中的 57 場比賽，結果表明我們的演算法取得了目前最好的性能。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※如何使用Docker、TensorFlow目標檢測API和OpenCV實現實時目標檢測和視頻處理
※Facebook數據泄露事件之後，還有哪些AI危機在等著我們？

TAG:機器之心 |