當前位置：

首頁 > 新聞 > DeepMind提出Rainbow：整合DQN演算法中的六種變體

DeepMind提出Rainbow：整合DQN演算法中的六種變體

新聞 10-10

選自DeepMind

機器之心編譯

參與：李澤南、蔣思源

「AlphaGo 之父」David Sliver 等人最近探索的方向轉向了強化學習和深度 Q 網路（Deep Q-Network）。在 DeepMind 最近發表的論文中，研究人員整合了 DQN 演算法中的六種變體，在 Atari 遊戲中達到了超越以往所有方法的表現。

大規模強化學習（RL）在複雜連續決策問題中最成功的方法是 Deep Q-Network 演算法（DQN; Mnih et al. 2013, 2015）。它包含了 Q 學習的卷積神經網路與以及反覆經驗（experience replay）而從原像素中學習，已在多種 Atari 遊戲中達到或超過了人類水平的表現。從那時起，很多擴展性方法被不斷提出，不斷提升著這種方法的速度和穩定性。

Double DQN（DDQN；van Hasselt、Guez&Silver；2016）通過解耦選擇（decoupling selection）和引導行動評估解決了 Q 學習過度估計偏差的問題。Prioritized experience replay（Schaul 等人；2015）通過重放（replay）學習到更頻繁的轉換，提升了數據效率。dueling 網路架構（Wang 等人；2016）可以通過分別表示狀態值和動作獎勵來概括各種動作。從多步驟引導程序目標中學習（Sutton；1988；Sutton & Barto 1998）如 A3C（Mnih 等人；2016）中使用偏差-方差權衡而幫助將最新觀察到的獎勵快速傳播到舊狀態中。分散式 Q 學習（Bellemare、Dabney & Munos；2017）學習了折扣回報（discounted returns）的分類分布（代替了估計平均值）。Noisy DQN（Fortunato 等人；2017）使用隨機網路層進行勘測（exploration）。當然，以上幾種方法還不是全部。

DeepMind提出Rainbow：整合DQN演算法中的六種變體

圖 1. 57 個 Atari 遊戲中等人類水平與各類 DQN 方法的對比。研究人員將各類 DQN 方法結合起來（彩虹色）與 DQN（灰色）和各自的表現基準進行了對比（其他各顏色）。DQN 混合方法的優勢在 7 百萬幀後開始顯現，在 4400 萬幀後大幅度領先，隨後性能提升趨於平緩。

以上這些演算法各自都可以提升 DQN 性能的某個方面，因為它們都著力於解決不同的問題，而且都構建在同一個框架上，所以能夠被我們整合起來。在一些例子中這種方法已經被使用過了：Prioritized DDQN 和 Dueling DDQN 都使用了 Q 學習，Dueling DDQN 也結合了 prioritized experience replay。在 DeepMind 最近發表的論文中，研究人員討論了綜合上述所有方法的整合性方案，並提出了單智能體系統：Rainbow。研究人員展示了整合後的表現，證明了它們很大程度上是互補的。實際上，這些組合在 57 個 Atari 2600 遊戲組成的基準測試環境中在數據效率和最終結果上都達成了新的業界最佳水平。該研究也提供了分類測試結果，顯示了每種組件對於提升性能的貢獻。

DeepMind提出Rainbow：整合DQN演算法中的六種變體

表 1. Rainbow 的超參數。在 57 種 Atari 遊戲的測試中，研究使用了同一個智能體和參數。

DeepMind提出Rainbow：整合DQN演算法中的六種變體

表 2. Rainbow 和其他測試基準的表現分數對比。

DeepMind提出Rainbow：整合DQN演算法中的六種變體

圖 4. 所有 57 個 Atari 遊戲的獨立智能體（ablation agents）性能下降測試。性能是學習曲線下的面積，相對於 Rainbow 智能體和 DQN 進行了規則化。其中，DQN 超越 Rainbow 的兩種遊戲被剔除了。導致性能下降最嚴重的組件在每個遊戲中都被高亮顯示了。刪除優先順序和多步驟學習在大多數遊戲中造成的性能影響最大，不過每個組件在不同遊戲中的影響各有差異。

論文：Rainbow: Combining Improvements in Deep Reinforcement Learning

DeepMind提出Rainbow：整合DQN演算法中的六種變體

論文鏈接：https://arxiv.org/abs/1710.02298

深度強化學習社區對於提升 DQN 演算法的性能已經做出過很多種獨立的改進嘗試。但是，目前我們尚不清楚這些擴展是不是互補的——它們是否可以互相結合？在本論文中，我們研究了 DQN 演算法的 6 個擴展，對其組合進行了實證研究。我們的實驗組合在 Atari 2600 基準測試中，數據效率和最終表現上都實現了實現了業內最佳水平。我們也提供了詳細的研究結果，其顯示了每種組件對於總體性能的貢獻。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※深度好奇提出文檔解析框架：面向對象的神經規劃
※26種神經網路激活函數可視化
※Sundar Pichai 和他的谷歌進化論
※TensorFlow sucks，有人吐槽TensorFlow晦澀難用
※弘量研究，正用智能投顧幫助金融機構降低成本，提升資產管理能力

TAG:機器之心 |