DeepMind最新論文提出「Rainbow」,將深度強化學習組合改進
原文來源:arXiv
作者:DeepMind
「雷克世界」編譯:嗯~阿童木呀、多啦A亮
「機器人圈」正式更名為「雷克世界」,後台回復「雷克世界」查看更多詳情。
相信那些時刻關注深度強化學習的人士都知道,深度強化學習社區已經對DQN演算法進行了若干次獨立的改進。但是,目前尚不清楚這些擴展中的哪些是互補的,同時可以有效地組合在一起。本文研究了DQN演算法的六個擴展,並對其組合進行了實證研究。我們的實驗表明,從數據效率和最終性能方面來說,該組合能夠在Atari 2600基準上提供最為先進的性能。我們還提供詳細的消融研究結果(ablation study),該研究結果顯示了每個成分對整體性能的影響。
圖1:在57 Atari遊戲中,中等人類水平的表現。我們將我們的集成智能體(彩虹色)與DQN(灰色)以及六個已發布的基準進行比較。需要注意的是,在700萬幀之後我們會得到與DQN的最佳性能匹配,超過4400萬幀內的任何基線,並且顯著地提高了最終性能。曲線平滑,且移動平均值超過5點。
介紹
在將強化學習(RL)擴展到複雜序列決策問題(sequential decision-making problems)上,現如今的許多成功都是由Deep Q-Networks演算法帶來的(Mnih等人於2013年,2015年提出)。它將具有卷積神經網路的Q-learning與經驗回放(experience replay)組合在一起,使其能夠從原始像素點中學習如何以人類水平的水平玩Atari遊戲。從那時起,人們開始提出許多擴展版本,以提高其速度或穩定性。
雙DQN(DDQN,van Hasselt,Guez和Silver於2016年提出)通過對bootstrap action的解耦選擇和評估,解決了Q-learning的高估偏差(van Hasselt 等人於2010年提出)問題。優先化經驗回放(Prioritized experience replay)(Schaul等人於2015年提出)通過更頻繁地回放那些有更多值得學習的轉換來提高數據效率。競爭網路(dueling network)架構(Wang等人於2016年提出)通過分別表示狀態值和操作優勢,以進行跨操作泛化。正如在A3C中使用那樣,從多步bootstrap目標中學習,將改變「偏差—方差」的平衡,並有助於將新觀察到的獎勵更快地傳播到早期的訪問狀態。分散式Q-learning學習了一種折扣回報的分類分布,而不是對平均值進行評估。雜訊DQN(Noisy DQN)則使用隨機網路層進行探索。而這個清單也理所當然不是詳盡無遺的。
這些演算法中的每一個都可以獨立地實現顯著的性能改進,由於它們是通過解決根本不同的問題來實現的,並且由於它們是建立在一個共享的框架上的,所以它們很有可能會被組合在一起。在某些情況下,這已經做到了這一點:優先化DDQN(Prioritized DDQN)和競爭DDQN(dueling DDQN)都使用雙向Q-learning,而競爭DDQN也與優先化經驗回放組合在一起。
在本文中,我們提出研究一種結合了上述所有成分的智能體。我們的研究結果展示了這些截然不同的想法是如何被組合在一起的,而且它們確實在很大程度上是互補的。實際上,從數據效率和最終性能方面來說,在Arcade學習環境(Bellemare等人於2013年提出)中,他們的組合使得57 個Atari 2600遊戲中最先進的基準測試結果。在最後,我們展示了消融研究的結果,以幫助了解不同成分對整體性能的影響。
討論
我們已經證明,DQN的幾個改進可以被成功地整合到一個單一的學習演算法中,以達到最先進的性能。此外,我們已經表明,在集成演算法中,除了一個成分之外,所有成分都提供了明顯的性能優勢。還有更多的演算法成分,我們無法都包含,這將是對一體化智能體進一步實驗的有希望的候選成分。在許多可能的候選成分中,我們將在以下內容中討論幾個。
我們在這裡重點關注Q-learning系列中基於值的方法。我們沒有考慮到純粹的基於策略的強化學習演算法,例如置信域策略優化(trust-region policy optimisation ,Schulman等人於2015年提出),也沒有考慮到actor-critic方法(Mnih等人於2016年提出; O'Donoghue等人於2016年提出)。
圖4:所有57個Atari遊戲的獨立智能體(ablation agents)性能下降測試。性能是學習曲線下的面積,相對於Rainbow智能體和 DQN進行了規則化。其中,DQN超越Rainbow的兩種遊戲被剔除了。導致性能下降最嚴重的成分在每個遊戲中都被高亮顯示了。刪除優先順序和多步驟學習在大多數遊戲中造成的性能影響最大,不過每個成分在不同遊戲中的影響各有差異。
許多演算法利用一系列數據來提高學習效率。優化收緊(Optimality tightening)(He等人於2016年提出)使用多步回歸來構造額外的不等式邊界,而不是使用它們代替Q-learning中使用的一步(1-step)目標。資格跡(Eligibility traces)允許在n-step回歸上進行軟性組合(Sutton等人於1988年提出)。然而,序貫法(sequential methods)比Rainbow中使用的多步目標更能計算每個梯度的計算量。此外,引入優先順序序列重放提出了如何存儲、重放和優先順序的問題。
情景控制(Episodic control ,Blundell等人於2016年提出)也著重於數據效率,並被證明在某些領域是非常有效的。它通過使用情景記憶作為補充學習系統來改善早期學習,能夠立即重新制定成功的動作序列。
除了雜訊網路,許多其他的探索方法也可能是有用的演算法要素:在這些自助式DQN(Bootstrapped DQN)(Osband等人於2016年提出)、內在動機(intrinsic motivation)(Stadie,Levine和Abbeel 等人於2015年提出)和基於數量的探索(Bellemare等人於2016年提出)中。這些替代成分的整合是進一步研究的成果。
在本文中,我們將重點放在核心的學習更新上,而無需探索其他計算架構。並行副本環境的一部學習,如在A3C(Mnih等人於2016年提出)、Gorila(Nair等人於2015年提出)或進化策略(Salimans等人於2017年提出)中可以有效加速學習,至少在執行時間方面。但是請注意,它們的數據效率較低。
分層強化學習(Hierarchical RL)也被成功應用於幾個複雜的Atari遊戲。在分層強化學習的成功應用中,我們強調了h-DQN(Kulkarni 等人於2016年提出)和Feudal網路(Vezhnevets等人於2017年提出)。
通過利用諸如像素控制或特徵控制(Jaderberg等人於2016年提出)、監督預測(Dosovitskiy和Koltun於2016年提出)或後繼特徵(Kulkarni等人於2016提出)等輔助任務也可以使狀態表現更加有效。
為了評估Rainbow相對於基準線的公平性,我們遵循了對剪裁獎勵、固定動作重複和幀疊加的常規域修改,但是這些修改可能會被其他學習演算法改進。波普藝術規範化(Pop-Art normalization)(van Hasselt等人於2016年提出)允許刪除獎勵剪裁,同時保持類似的性能水平。精細的動作重複(Fine-grained action repetition)(Sharma,Lakshminarayanan和Ravindran 等人於2017年提出)能夠學習如何重複動作。一個循環狀態網路(Hausknecht和Stone等人於2015年提出)可以學習時間狀態表示,代替觀察幀的固定堆疊。一般來說,我們認為將真實遊戲暴露給智能體是未來研究具有前途的方向。


TAG:雷克世界 |