DeepMind最新論文提出「Rainbow」，將深度強化學習組合改進

科技 10-12

原文來源：arXiv

作者：DeepMind

「雷克世界」編譯：嗯~阿童木呀、多啦A亮

「機器人圈」正式更名為「雷克世界」，後台回復「雷克世界」查看更多詳情。

相信那些時刻關注深度強化學習的人士都知道，深度強化學習社區已經對DQN演算法進行了若干次獨立的改進。但是，目前尚不清楚這些擴展中的哪些是互補的，同時可以有效地組合在一起。本文研究了DQN演算法的六個擴展，並對其組合進行了實證研究。我們的實驗表明，從數據效率和最終性能方面來說，該組合能夠在Atari 2600基準上提供最為先進的性能。我們還提供詳細的消融研究結果（ablation study），該研究結果顯示了每個成分對整體性能的影響。

圖1：在57 Atari遊戲中，中等人類水平的表現。我們將我們的集成智能體（彩虹色）與DQN（灰色）以及六個已發布的基準進行比較。需要注意的是，在700萬幀之後我們會得到與DQN的最佳性能匹配，超過4400萬幀內的任何基線，並且顯著地提高了最終性能。曲線平滑，且移動平均值超過5點。

介紹

在將強化學習（RL）擴展到複雜序列決策問題（sequential decision-making problems）上，現如今的許多成功都是由Deep Q-Networks演算法帶來的（Mnih等人於2013年，2015年提出）。它將具有卷積神經網路的Q-learning與經驗回放（experience replay）組合在一起，使其能夠從原始像素點中學習如何以人類水平的水平玩Atari遊戲。從那時起，人們開始提出許多擴展版本，以提高其速度或穩定性。

雙DQN（DDQN，van Hasselt，Guez和Silver於2016年提出）通過對bootstrap action的解耦選擇和評估，解決了Q-learning的高估偏差（van Hasselt 等人於2010年提出）問題。優先化經驗回放（Prioritized experience replay）（Schaul等人於2015年提出）通過更頻繁地回放那些有更多值得學習的轉換來提高數據效率。競爭網路（dueling network）架構（Wang等人於2016年提出）通過分別表示狀態值和操作優勢，以進行跨操作泛化。正如在A3C中使用那樣，從多步bootstrap目標中學習，將改變「偏差—方差」的平衡，並有助於將新觀察到的獎勵更快地傳播到早期的訪問狀態。分散式Q-learning學習了一種折扣回報的分類分布，而不是對平均值進行評估。雜訊DQN（Noisy DQN）則使用隨機網路層進行探索。而這個清單也理所當然不是詳盡無遺的。

這些演算法中的每一個都可以獨立地實現顯著的性能改進，由於它們是通過解決根本不同的問題來實現的，並且由於它們是建立在一個共享的框架上的，所以它們很有可能會被組合在一起。在某些情況下，這已經做到了這一點：優先化DDQN（Prioritized DDQN）和競爭DDQN（dueling DDQN）都使用雙向Q-learning，而競爭DDQN也與優先化經驗回放組合在一起。

在本文中，我們提出研究一種結合了上述所有成分的智能體。我們的研究結果展示了這些截然不同的想法是如何被組合在一起的，而且它們確實在很大程度上是互補的。實際上，從數據效率和最終性能方面來說，在Arcade學習環境（Bellemare等人於2013年提出）中，他們的組合使得57 個Atari 2600遊戲中最先進的基準測試結果。在最後，我們展示了消融研究的結果，以幫助了解不同成分對整體性能的影響。

討論

我們已經證明，DQN的幾個改進可以被成功地整合到一個單一的學習演算法中，以達到最先進的性能。此外，我們已經表明，在集成演算法中，除了一個成分之外，所有成分都提供了明顯的性能優勢。還有更多的演算法成分，我們無法都包含，這將是對一體化智能體進一步實驗的有希望的候選成分。在許多可能的候選成分中，我們將在以下內容中討論幾個。

我們在這裡重點關注Q-learning系列中基於值的方法。我們沒有考慮到純粹的基於策略的強化學習演算法，例如置信域策略優化（trust-region policy optimisation ，Schulman等人於2015年提出），也沒有考慮到actor-critic方法（Mnih等人於2016年提出； O'Donoghue等人於2016年提出）。

圖4：所有57個Atari遊戲的獨立智能體（ablation agents）性能下降測試。性能是學習曲線下的面積，相對於Rainbow智能體和 DQN進行了規則化。其中，DQN超越Rainbow的兩種遊戲被剔除了。導致性能下降最嚴重的成分在每個遊戲中都被高亮顯示了。刪除優先順序和多步驟學習在大多數遊戲中造成的性能影響最大，不過每個成分在不同遊戲中的影響各有差異。

許多演算法利用一系列數據來提高學習效率。優化收緊（Optimality tightening）（He等人於2016年提出）使用多步回歸來構造額外的不等式邊界，而不是使用它們代替Q-learning中使用的一步（1-step）目標。資格跡（Eligibility traces）允許在n-step回歸上進行軟性組合（Sutton等人於1988年提出）。然而，序貫法（sequential methods）比Rainbow中使用的多步目標更能計算每個梯度的計算量。此外，引入優先順序序列重放提出了如何存儲、重放和優先順序的問題。

情景控制（Episodic control ，Blundell等人於2016年提出）也著重於數據效率，並被證明在某些領域是非常有效的。它通過使用情景記憶作為補充學習系統來改善早期學習，能夠立即重新制定成功的動作序列。

除了雜訊網路，許多其他的探索方法也可能是有用的演算法要素：在這些自助式DQN（Bootstrapped DQN）（Osband等人於2016年提出）、內在動機（intrinsic motivation）（Stadie，Levine和Abbeel 等人於2015年提出）和基於數量的探索（Bellemare等人於2016年提出）中。這些替代成分的整合是進一步研究的成果。

在本文中，我們將重點放在核心的學習更新上，而無需探索其他計算架構。並行副本環境的一部學習，如在A3C（Mnih等人於2016年提出）、Gorila（Nair等人於2015年提出）或進化策略（Salimans等人於2017年提出）中可以有效加速學習，至少在執行時間方面。但是請注意，它們的數據效率較低。

分層強化學習（Hierarchical RL）也被成功應用於幾個複雜的Atari遊戲。在分層強化學習的成功應用中，我們強調了h-DQN（Kulkarni 等人於2016年提出）和Feudal網路（Vezhnevets等人於2017年提出）。

通過利用諸如像素控制或特徵控制（Jaderberg等人於2016年提出）、監督預測（Dosovitskiy和Koltun於2016年提出）或後繼特徵（Kulkarni等人於2016提出）等輔助任務也可以使狀態表現更加有效。

為了評估Rainbow相對於基準線的公平性，我們遵循了對剪裁獎勵、固定動作重複和幀疊加的常規域修改，但是這些修改可能會被其他學習演算法改進。波普藝術規範化（Pop-Art normalization）（van Hasselt等人於2016年提出）允許刪除獎勵剪裁，同時保持類似的性能水平。精細的動作重複（Fine-grained action repetition）（Sharma，Lakshminarayanan和Ravindran 等人於2017年提出）能夠學習如何重複動作。一個循環狀態網路（Hausknecht和Stone等人於2015年提出）可以學習時間狀態表示，代替觀察幀的固定堆疊。一般來說，我們認為將真實遊戲暴露給智能體是未來研究具有前途的方向。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷克世界 的精彩文章:

TAG:雷克世界 |