當前位置:
首頁 > 科技 > DeepMind推出分散式深度強化學習架構IMPALA,讓一個Agent學會多種技能

DeepMind推出分散式深度強化學習架構IMPALA,讓一個Agent學會多種技能

維金 編譯自 DeepMind Blog

量子位 出品 | 公眾號 QbitAI

目前,深度增強學習(DeepRL)技術在多種任務中都大獲成功,無論是機器人的持續控制問題,還是掌握圍棋和雅達利的電子遊戲。不過,這些方面的進展僅限於孤立任務。完成每一項任務都要單獨調試、訓練agent。

在最近的工作中,我們研究了如何訓練單一agent去執行多種任務

今天,我們發布了DMLab-30。這是一組新任務,包含了在統一視覺環境、通用動作空間(action space)中的多種類型挑戰。訓練agent去勝任多種任務意味著巨大的吞吐量,以及要高效地利用每個數據點。

為此,我們開發了全新的、擴展性強的agent架構,用於分散式訓練。這就是IMPALA(重要性加權的操作者-學習者架構,Importances Weighted Actor-Learner Architectures),這種架構利用了新的離策略修正演算法V-trace。

DMLab-30

DMLab-30用開源增強學習環境DeepMind Lab設計的新關卡的集合。這些環境讓任何DeepRL研究者都能基於大量有趣的任務去測試不同系統,可能是單個任務也可能是多任務集合。

任務的設計則儘可能地多樣化。這些任務有不同目標,從學習到記憶,再到探索。在視覺上這些任務也有所不同,從色彩鮮艷的現代風格材質,到黎明、正午和夜晚沙漠中表現出的棕色和綠色。這些任務也涉及多種物理環境,從開放的山地地形,到直角迷宮,再到開闊的圓形房間。

此外,有些環境中設置了「機器人」,這些機器人有屬於自己的、以目標為導向的行為。同樣重要的,不同關卡的目標和獎勵有所不同,具體從跟蹤語言命令、使用鑰匙去開門、尋找蘑菇,到繪製和追蹤複雜的不可逆路徑。

然而在最基本的層面上,從動作空間和觀察空間來看,環境都是相同。這使得單一agent可以通過訓練,在不同環境中行動。

IMPALA:

重要性加權的操作者-學習者架構

DMLab-30的挑戰性很強。為了利用這個工具,我們開發了全新的分散式agent,即IMPALA。這個agent能利用高效的分散式架構和TensorFlow,讓數據吞吐量最大化。

IMPALA的靈感來自於熱門的A3C架構,後者使用多個分散式actor來學習agent的參數。在類似這樣的模型中,每個actor都使用策略參數的一個副本,在環境中操作。actor會周期性地暫停探索,將它們已經計算得出的梯度信息分享至中央參數伺服器,而後者會對此進行更新。

與此不同,IMPALA中的actor不會被用來計算梯度信息。它們只是收集經驗,並將這些經驗傳遞至位於中心的learner。learner會計算梯度。因此在這樣的模型中,actor和learner是完全獨立的。為了利用當代計算系統的規模優勢,IMPALA在配置中可支持單個learner機器,也可支持多個相互之間同步的learner機器。以這種方式將學習和操作分開也有利於提升整個系統的吞吐量,因為與批量A2C這類架構不同,actor不再需要等待學習步驟。這幫助我們在有趣的環境中訓練IMPALA,同時不必面臨由於幀渲染時間或任務重啟耗時造成的差異。

不過操作和學習的解耦也導致,actor的策略落後於learner。為了彌補這樣的差距,我們引入了離策略優勢actor-評價者公式V-trace。它彌補了離策略actor獲得的軌跡。你可以從我們的論文中了解演算法及其分析細節。

憑藉優化的模型,與傳統agent相比,IMPALA可以處理多出一到兩個數量級的經驗,使得在挑戰性環境中的學習成為可能。我們將IMPALA與多種熱門的actor-評價者方法進行了比較,發現前者有明顯的速度提升。此外,IMPALA的吞吐量上升與actor、learner的數量增長呈線性關係。這表明,分散式agent模型和V-trace演算法都可以勝任超大規模的實驗,即使機器數量達到數千台。

在利用DMLab-30關卡進行測試時,與分散式A3C相比,IMPALA的數據效率達到10倍,而最終得分達到兩倍。此外,與單任務環境中的訓練相比,IMPALA在多任務環境的訓練中表現出正向轉換。

論文

IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Volodymir Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, Shane Legg, Koray Kavukcuoglu

https://arxiv.org/abs/1802.01561

開源代碼

https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/dmlab30

博客原文

https://deepmind.com/blog/impala-scalable-distributed-deeprl-dmlab-30/

加入社群

量子位AI社群13群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot5入群;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進群請加小助手微信號qbitbot5,並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

專訪雲跡科技CEO支濤:人類可能會變成半機器人
一天發21條推特,法國總統馬克龍邀谷歌來巴黎開AI實驗室

TAG:量子位 |