當前位置:
首頁 > 新聞 > DeepMind元梯度強化學習演算法,提高大規模深度強化學習應用的性能

DeepMind元梯度強化學習演算法,提高大規模深度強化學習應用的性能

近日,來自 DeepMind 的研究者 David Silver 等人發布論文,提出一種基於梯度的元學習演算法,可以在線調整元參數,使得回報既能適應具體問題,又能隨著時間動態調整以適應不斷變化的學習環境。

強化學習(RL)的核心目標是優化智能體的回報(累積獎勵)。一般通過預測和控制相結合的方法來實現這一目標。預測的子任務是估計價值函數,即在任何給定狀態下的預期回報。理想情況下,這可以通過朝著真值函數(true value function)的方向不斷更新近似價值函數來實現。控制的子任務是優化智能體選擇動作的策略,以最大化價值函數。理想情況下,策略只會在使真值函數增加的方向上更新。然而,真值函數是未知的,因此,對於預測和控制,我們需要將採樣回報作為代理(proxy)。強化學習演算法家族 [Sutton,1988;Rummery 和 Niranjan,1994;van Seijen 等,2009;Sutton 和 Barto,2018] 包括多種最先進的深度強化學習演算法 [Mnih 等,2015;van Hasselt 等,2016;Harutyunyan 等,2016;Hessel 等,2018;Espeholt 等,2018],它們的區別在於對回報的不同設定。

折扣因子 γ 決定了回報的時間尺度。接近 1 的折現因子更關注長期的累計回報,而接近 0 的折現因子優先考慮短期獎勵,更關注短期目標。即使在明顯需要關注長期回報的問題中,我們也經常觀察到使用小於 1 的折扣因子可以獲得更好的效果 [Prokhorov 和 Wunsch,1997],這一現象在學習的早期體現得尤為明顯。眾所周知,許多演算法在折扣因子較小時收斂速度較快 [Bertsekas 和 Tsitsiklis,1996],但過小的折扣因子可能會導致過度短視的高度次優策略。在實踐中,我們可以首先對短期目標進行優化,例如首先用 γ= 0 進行優化,然後在學習取得一定效果後再不斷增加折扣 [Prokhorov and Wunsch,1997]。

我們同樣可以在不同的時間段設定不同的回報。一個 n 步的回報需要考慮 n 步中獎勵的累積,然後添加第 n 個時間步時的價值函數。λ-回報 [Sutton,1988;Sutton 和 Barto,2018] 是 n 步回報的幾何加權組合。在任何一種情況下,元參數 n 或 λ 對演算法的性能都很重要,因為他們影響到偏差和方差之間的權衡。許多研究人員對如何自動選擇這些參數進行了探索 [Kearns 和 Singh,2000,Downey 和 Sanner,2010,Konidaris 等,2011,White and White,2016]。

還有很多其他的設計可以在回報中體現出來,包括離策略修正 [Espeholt 等,2018,Munos 等,2016]、目標網路 [Mnih 等,2015]、對特定狀態的強調 [Sutton 等,2016]、獎勵剪裁 [Mnih 等,2013],甚至獎勵本身 [Randl?v 和 Alstr?m,1998;Singh 等,2005;Zheng 等,2018]。

本論文主要關注強化學習的一個基本問題:便於智能體最大化回報的最佳回報形式是什麼?具體而言,本論文作者提出通過將回報函數當作包含可調整元參數 η 的參數函數來學習,例如折扣因子 γ 或 bootstrapping 參數 λ [Sutton,1988]。在智能體與環境的交互中,元參數 η 可以在線進行調整,使得回報既能適應具體問題,又能隨著時間動態調整以適應不斷變化的學習環境。研究者推導出一種實用的、基於梯度的元學習演算法,實驗表明它可以顯著提高大規模深度強化學習應用的性能。

DeepMind元梯度強化學習演算法,提高大規模深度強化學習應用的性能

圖 1:在各自的馬爾可夫獎勵過程(頂部)中,狀態依賴可調整參數(a)bootstrapping 參數 λ 或(b)折扣因子 γ 的元梯度學習結果圖示。在底部顯示的每個子圖中,第一幅圖展示了元參數 γ 或 λ 在訓練過程中的變化情況(10 個種子下的平均值 - 陰影區域覆蓋了 20%-80%)。第二幅圖顯示了每種狀態下 γ 或 λ 的最終值,分別指奇/偶狀態的高/低值(小提琴圖顯示不同種子的分布情況)。

DeepMind元梯度強化學習演算法,提高大規模深度強化學習應用的性能

表 1:與不使用元學習的基線 IMPALA 演算法相比,元學習折扣參數 γ、時序差分學習參數 λ,或學習二者的結果。研究者使用的是 [Espeholt et al,2018] 最初報告的折扣因子 γ= 0.99 以及調整後的折扣因子 γ= 0.995(見附錄 C); 為了公平比較,研究者將元目標中的交叉驗證折扣因子 γ』設置為相同的值。

論文:Meta-Gradient Reinforcement Learning(元梯度強化學習)

DeepMind元梯度強化學習演算法,提高大規模深度強化學習應用的性能

論文鏈接:https://arxiv.org/abs/1805.09801

摘要:強化學習演算法的目標是估計和/或優化價值函數。然而與監督學習不同,強化學習中沒有可以提供真值函數的教師或權威。相反,大多數強化學習演算法估計和/或優化價值函數的代理。該代理通常基於對真值函數的採樣和 bootstrapped 逼近,即回報。對回報的不同選擇是決定演算法本質的主要因素,包括未來獎勵的折扣因子、何時以及如何設定獎勵,甚至獎勵本身的性質。眾所周知,這些決策對強化學習演算法的整體成功至關重要。我們討論了一種基於梯度的元學習演算法,它能夠在線適應回報的本質,同時進行與環境的互動和學習。我們將該演算法應用於超過 2 億幀 Atari 2600 環境中的 57 場比賽,結果表明我們的演算法取得了目前最好的性能。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

如何使用Docker、TensorFlow目標檢測API和OpenCV實現實時目標檢測和視頻處理
Facebook數據泄露事件之後,還有哪些AI危機在等著我們?

TAG:機器之心 |