「多巴胺」來襲！兼具易用性和復現性的新型強化學習框架Dopamine

新聞 08-28

選自Google AI Blog，作者：Pablo Samuel Castro、Marc G. Bellemare，機器之心編譯，參與：路、張倩。

今日，谷歌發布博客介紹其最新推出的強化學習新框架 Dopamine，該框架基於 TensorFlow，可提供靈活性、穩定性、復現性，以及快速的基準測試。

GitHub repo：https://github.com/google/dopamine

在過去幾年裡，強化學習研究取得了多方面的顯著進展。這些進展使得智能體能夠以超越人類的水平玩遊戲，其中比較可圈可點的例子包括：DeepMind 的 DQN 在 Atari 遊戲上的表現、AlphaGo、AlphaGo Zero 以及 Open AI Five。具體來說，在 DQN 中引入重播記憶（replay memory）使得智能體能夠利用先前的經驗，大規模分散式訓練使得智能體能夠將學習過程分配給多個工作線程（worker），分散式方法使得智能體能夠建模完整的分布，而不僅僅是它們的期望值，從而了解它們所在環境的完整情況。這種進步非常重要，因為演算法催生的這些進展還可用於其他領域，如機器人學（參見：前沿 | 谷歌提出 Sim2Real：讓機器人像人類一樣觀察世界）。

通常來講，取得此類進展需要在設計上進行快速迭代（通常沒有明確的方向），打破已有方法的結構。然而，多數現有強化學習框架並不同時具備可讓研究者高效迭代 RL 方法的靈活性和穩定性，因此探索新的研究方向可能短期內無法獲得明顯的收益。再者，復現現有框架的結果通常太過耗時，可能會導致科學復現性問題。

今天，谷歌介紹了一款基於 TensorFlow 的新框架，旨在為強化學習研究者及相關人員提供具備靈活性、穩定性及復現性的工具。該框架的靈感來自於大腦中獎勵–激勵行為的主要組成部分「多巴胺」（Dopamine），這反映了神經科學和強化學習研究之間的密切聯繫，該框架旨在支持能夠推動重大發現的推測性研究。谷歌還發布了一組相關的 Colab（https://github.com/google/dopamine/blob/master/dopamine/colab/README.md），以說明該框架的使用方法。

易用性

清晰性（clarity）和簡明性（simplicity）是該框架設計過程中的兩個關鍵考量因素。谷歌提供的代碼很緊湊（大約 15 個 Python 文件）且記錄良好。原因在於谷歌研究人員專註於街機模式學習環境（ALE，一個成熟、已被充分了解的基準）和四個基於價值的智能體：DQN、C51、精心設計的 Rainbow 智能體簡化版和 Implicit Quantile Network 智能體（上個月才在 ICML 大會上得到展示）。谷歌希望這一簡明性特點可使研究者容易理解智能體的內在工作原理，快速嘗試新想法。

復現性

谷歌非常看重強化學習研究中的復現性。因此，谷歌提供了其代碼的完整測試；這些測試見文檔附表。此外，谷歌的實驗框架遵循 Machado 等人（2018）關於利用 ALE 標準化經驗評估的推薦方法。

基準測試

對於新研究者來說，對自己的想法進行快速的基準測試是非常重要的。谷歌提供四個智能體的完整訓練數據，包括 ALE 支持的 60 個遊戲，格式為 Python pickle 文件（對於使用谷歌框架訓練的智能體）和 JSON 數據文件（用於對比其他框架訓練的智能體）。谷歌還提供了一個網站，研究者可以使用該網站對所有提供智能體在所有 60 個遊戲中的訓練運行進行快速可視化。下圖即谷歌的 4 個智能體在 Seaquest 上的訓練運行（Seaquest 是 ALE 支持的 Atari 2600 遊戲之一）。

「多巴胺」來襲！兼具易用性和復現性的新型強化學習框架Dopamine

谷歌的 4 個智能體在 Seaquest 上的訓練運行。x 軸表示迭代，每個迭代是一百萬個遊戲幀（實時遊戲 4.5 小時）；y 軸是每次遊戲獲取的平均分。陰影區域表示 5 個獨立運行的置信區間。

谷歌還提供利用這些智能體訓練的深度網路、原始統計日誌以及用於 Tensorboard 可視化的 TensorFlow 事件文件。相關地址：https://github.com/google/dopamine/tree/master/docs#downloads

谷歌希望其框架的靈活性和易用性能夠幫助研究者嘗試新想法。谷歌已經在研究中使用了該框架，發現它可使很多想法快速迭代，具備很強的靈活性。谷歌期待看到社區使用這一框架。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※專欄｜有趣！用計算機視覺技術與PaddlePaddle打造AI控煙項目
※UIUC陳德銘教授：「萬能晶元」FPGA與深度學習

TAG:機器之心 |