DeepMind推出分散式深度強化學習架構IMPALA，讓一個Agent學會多種技能

科技 02-08

維金編譯自 DeepMind Blog

量子位出品 | 公眾號 QbitAI

目前，深度增強學習（DeepRL）技術在多種任務中都大獲成功，無論是機器人的持續控制問題，還是掌握圍棋和雅達利的電子遊戲。不過，這些方面的進展僅限於孤立任務。完成每一項任務都要單獨調試、訓練agent。

在最近的工作中，我們研究了如何訓練單一agent去執行多種任務。

今天，我們發布了DMLab-30。這是一組新任務，包含了在統一視覺環境、通用動作空間（action space）中的多種類型挑戰。訓練agent去勝任多種任務意味著巨大的吞吐量，以及要高效地利用每個數據點。

為此，我們開發了全新的、擴展性強的agent架構，用於分散式訓練。這就是IMPALA（重要性加權的操作者-學習者架構，Importances Weighted Actor-Learner Architectures），這種架構利用了新的離策略修正演算法V-trace。

DMLab-30

DMLab-30用開源增強學習環境DeepMind Lab設計的新關卡的集合。這些環境讓任何DeepRL研究者都能基於大量有趣的任務去測試不同系統，可能是單個任務也可能是多任務集合。

任務的設計則儘可能地多樣化。這些任務有不同目標，從學習到記憶，再到探索。在視覺上這些任務也有所不同，從色彩鮮艷的現代風格材質，到黎明、正午和夜晚沙漠中表現出的棕色和綠色。這些任務也涉及多種物理環境，從開放的山地地形，到直角迷宮，再到開闊的圓形房間。

此外，有些環境中設置了「機器人」，這些機器人有屬於自己的、以目標為導向的行為。同樣重要的，不同關卡的目標和獎勵有所不同，具體從跟蹤語言命令、使用鑰匙去開門、尋找蘑菇，到繪製和追蹤複雜的不可逆路徑。

然而在最基本的層面上，從動作空間和觀察空間來看，環境都是相同。這使得單一agent可以通過訓練，在不同環境中行動。

IMPALA：

重要性加權的操作者-學習者架構

DMLab-30的挑戰性很強。為了利用這個工具，我們開發了全新的分散式agent，即IMPALA。這個agent能利用高效的分散式架構和TensorFlow，讓數據吞吐量最大化。

IMPALA的靈感來自於熱門的A3C架構，後者使用多個分散式actor來學習agent的參數。在類似這樣的模型中，每個actor都使用策略參數的一個副本，在環境中操作。actor會周期性地暫停探索，將它們已經計算得出的梯度信息分享至中央參數伺服器，而後者會對此進行更新。

與此不同，IMPALA中的actor不會被用來計算梯度信息。它們只是收集經驗，並將這些經驗傳遞至位於中心的learner。learner會計算梯度。因此在這樣的模型中，actor和learner是完全獨立的。為了利用當代計算系統的規模優勢，IMPALA在配置中可支持單個learner機器，也可支持多個相互之間同步的learner機器。以這種方式將學習和操作分開也有利於提升整個系統的吞吐量，因為與批量A2C這類架構不同，actor不再需要等待學習步驟。這幫助我們在有趣的環境中訓練IMPALA，同時不必面臨由於幀渲染時間或任務重啟耗時造成的差異。

不過操作和學習的解耦也導致，actor的策略落後於learner。為了彌補這樣的差距，我們引入了離策略優勢actor-評價者公式V-trace。它彌補了離策略actor獲得的軌跡。你可以從我們的論文中了解演算法及其分析細節。

憑藉優化的模型，與傳統agent相比，IMPALA可以處理多出一到兩個數量級的經驗，使得在挑戰性環境中的學習成為可能。我們將IMPALA與多種熱門的actor-評價者方法進行了比較，發現前者有明顯的速度提升。此外，IMPALA的吞吐量上升與actor、learner的數量增長呈線性關係。這表明，分散式agent模型和V-trace演算法都可以勝任超大規模的實驗，即使機器數量達到數千台。

在利用DMLab-30關卡進行測試時，與分散式A3C相比，IMPALA的數據效率達到10倍，而最終得分達到兩倍。此外，與單任務環境中的訓練相比，IMPALA在多任務環境的訓練中表現出正向轉換。

論文

IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Volodymir Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, Shane Legg, Koray Kavukcuoglu

https://arxiv.org/abs/1802.01561

開源代碼

https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/dmlab30

博客原文

https://deepmind.com/blog/impala-scalable-distributed-deeprl-dmlab-30/

—完—

加入社群

量子位AI社群13群開始招募啦，歡迎對AI感興趣的同學，加小助手微信qbitbot5入群；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進群請加小助手微信號qbitbot5，並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。（專業群審核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。