深度強化學習綜述:AlphaGo到學習資源分享

科技 01-29

選自arXiv

作者：Yuxi Li

編譯：Xavier Massa、侯韻楚、吳攀

摘要

本論文將概述最近在深度強化學習（Deep Reinforcement Learning）方面喜人的進展。本文將從深度學習及強化學習的背景知識開始，包括了對實驗平台的介紹。接著我們會介紹深度 Q 網路（Deep Q-Network，DQN）及其拓展、非同步方法（asynchronous methods）、策略優化（policy optimization）、獎勵（reward）及規劃（planning）。在這之後，我會討論注意和記憶（attention and memory）機制、非監督學習及學習去學習。隨後，會討論強化學習的各種應用，包括在遊戲（特別是 AlphaGo）、機器人、口語對話系統（聊天機器人）、機器翻譯、文本序列預測、神經架構設計、個性化網路服務、醫療、金融及音樂生成等方面的應用。我們會提到一些未覆蓋到的主題/論文。在列舉強化學習相關資源之後，我們將會以討論結束論文。

1 導語

強化學習（RL）實際上是關於序列決策的一種工具，它能夠解決包括科學研究、工程文理等學科的一系列問題（Sutton and Barto, 2017）。

增強學習及神經網路的結合可以追溯到 1990 年代（Tesauro, 1994; Bertsekas and Tsitsiklis, 1996; Schmidhuber, 2015）。而在最近深度學習的突破性進展之下（LeCun et al., 2015; Goodfellow et al., 2016），得益於大數據的普及、計算能力的提升及新的演算法技術，我們正見證著強化學習的復興（Krakovsky, 2016），特別是強化學習及深度學習的結合（也就是深度強化學習（deep RL））。

我們已見證了諸多突破性進展——深度 Q 網路（Mnih et al., 2015）、AlphaGo（Silver et al., 2016）及可微分神經計算機（Graves et al., 2016）。還有一些全新的架構及應用，包括非同步方法（Mnih et al., 2016）、對抗網路架構（Dueling Network Architectures，Wang et al., 2016a）、價值迭代網路（value iteration networks，Tamar et al., 2016）、用於機器翻譯的雙學習（dual learning for machine translation，He et al., 2016a）、口語對話系統（spoken dialogue systems，Su et al., 2016b）、信息提取（information extraction，Narasimhan et al., 2016）、引導性策略搜索（guided policy search，Levine et al., 2016a）、生成對抗模仿學習（generative adversarial imitation learning，Ho and Ermon，2016）、非監督的強化及輔助學習（unsupervised reinforcement and auxiliary learning，Jaderberg et al., 2017）及神經架構設計（neural architecture design，Zoph and Le, 2017）等等。在這篇概述中，我們主要關注近幾年的工作成果，當然也只能覆蓋不完全的、一小部分成果。

我們將給讀者一系列的參考資料以幫助其進一步學習：

強化學習（Sutton and Barto, 2017; Szepesvari, 2010; Bertsekas, 2012; Powell, 2011; Bertsekas and Tsitsiklis, 1996; Puterman, 2005; Littman, 2015; Kaelbling et al., 1996）

深度學習（LeCun et al., 2015; Goodfellow et al., 2016; Bengio, 2009; Deng and Dong, 2014）

機器學習（Jordan and Mitchell, 2015; Hastie et al., 2009;Bishop,2011;Murphy,2012;Jamesetal.,2013）

實用機器學習建議（Domingos，2012；Zinkevich，2017）

人工智慧（Russell and Norvig, 2009）

神經網路中的深度學習（Schmidhuber，2015）

自然語言處理（Hirschberg and Manning，2015；Deng and Liu, 2017）

機器人學（Kober et al., 2013）

半監督學習（Zhu and Goldberg，2009）

貝葉斯強化學習（Ghavamzadeh et al., 2015）

口語對話系統（Hinton et al., 2012；He and Deng，2013；Young et al., 2013）

人工智慧安全（Amodei et al., 2016； Garcia and Fernandez，2015）

蒙特卡洛搜索（MCTS）（Browne et al., 2012；Gelly et al., 2012）

多代理強化學習（Shoham et al., 2003；Busoniu et al., 2008）

博弈論（Leyton-Brown and Shoham，2008）等等。

我們將會在 23 節中列舉強化學習資源。在 goo.gl/KoXIQC 及 goo.gl/1Q1lzg 參見強化學習的應用。

該概述的大綱如下：第二節，深度學習及強化學習的背景知識及對測試平台的介紹；第三節，對深度 Q 網路及其拓展的介紹；第四節，非同步放法的介紹；第五節，策略優化；第六節，獎勵；第七節，規劃；第八節，注意和記憶機制，特別是對可微分神經計算機（DNC）的介紹；第九節，非監督學習；第十節；學習去學習（learning to learn）；第十一節，遊戲/博弈，包括棋類遊戲、視頻遊戲及非完美信息博弈；第十二節，AlphaGo；第十三屆，機器人學；第十四節，對話系統（聊天機器人）；第十五節，機器翻譯；第十六節，文字序列預測；第十七屆，神經架構設計；第十八節，個性化網路服務；第十九節，醫療；第二十節，金融；第二十一節，音樂生成；第二十二節，一個未回顧論文/話題的待辦清單；第二十四節，討論。

特別地，我們將在 23 節中列舉一系列關於強化學習的資源，包括圖書、在線課程、教程、會議、期刊、研討會乃至博客等。如果非要選擇唯一一個推薦的強化學習的資源，那麼應該是 Sutton 教授的強化學習書（RL Book，Sutton and Barto，2017，第二版正在編輯中）。它覆蓋了強化學習的基礎知識，並介紹了它最新的進展，包括深度 Q 網路、AlphaGo、梯度策略方法（Policy Gradient Methods）及在心理學與神經科方面的進展。對深度學習而言，則可以選擇 Goodfellow 等人的書（2016）。

2 背景知識

在這一節中，我們將會簡要介紹在深度學習（Sutton and Barto，2017）與深度學習（Goodfellow et al., 2016）方面的基礎知識與概念。

2.1 深度學

2.2 強化學

2.3 測試平台

街機學習環境（Arcade Learning Environment，ALE，Bellemare et al., 2013）是一個由 2600 個 Atari 遊戲構成的用於研發及評估 AI 的框架。

DeepMind 團隊則發布了它的第一人稱視角 3D 遊戲平台 DeepMind Lab（Beattie et al., 2016）。DeepMind 及暴雪會合作以發布星際爭霸 2 的人工智慧研究環境（goo.gl/Ptiwfg）。

OpenAI Gym（https://gym.openai.com/）是一個用於開發強化學習演算法的工具包。它由一系列環境構成，包括了 Atari 遊戲及模擬的機器人構成，以及一個用於比較及復現結果的網站。

OpenAI Universe（https://universe.openai.com/）被用於將任一程序轉換到一個 Gym 環境。Universe 已經集成了許多的環境，包括 Atari 遊戲、flash 遊戲、如 Mini World of Bit Sand 這樣的瀏覽器任務。最近，俠盜獵車手 5（GTA5）也已經被加入到 Universe 中來幫助模擬自動駕駛車輛。

FAIR TorchCraft（Synnaeve et al., 2016）是一個為如星際爭霸這樣實時戰略類（RTS）遊戲開發的庫。

ViZDoom 是一個基於《毀滅戰士（Doom）》遊戲的為研究視覺強化學習的研究平台。

TORCS 是一個賽車比賽駕駛模擬器（Bernhard Wymann et al., 2014）。

MuJoCO（Multi-Joint dynamics with Contact）是一個物理引擎，參見：http://www.mujoco.org/

Duan et al., 2016 為連續控制任務給出了一個跑分平台，開源代碼參見：https://github.com/openai/rllab

Nogueira and Cho（2016）展示了 WebNav 挑戰，來測試維基百科鏈接導航。

3 深度 Q 網路（DEEP Q-NETWORK）

深度強化學習綜述:AlphaGo到學習資源分享

演算法 1：深度 Q 網路，截取自 Mnih et al. (2015)

3.1 雙重 DQN（DOUBLE DQN）

3.2 優先經驗回放（PRIORITIZED EXPERIENCE REPLAY）

3.3 對抗架構（DUELING ARCHITECTURE）

3.4 更多拓展

4 非同步方法

深度強化學習綜述:AlphaGo到學習資源分享

演算法 2：A3C，每個 actor-learner 線程，來自 Mnih et al. (2016)

5 策略優化

策略通常是隨機的。然而在 2014 年，Silver et al. (2014) 引入確定性策略梯度（DPG）來有效估計策略梯度。Lillicrap et al. (2016) 用深度神經網路擴展了 DPG。同時我們介紹了幾份近期成果，包括引導策略搜索（Guided Policy Search，Levine et al.,2016a）、信賴域策略優化（Trust Region Policy Optimization，Schulman et al.,2015）、基準測試結果（Duan et al., 2016）以及策略梯度與 Q 學習（O Donoghue et al., 2017）。

5.1 確定性策略梯度

5.2 深度確定性策略梯度

5.3 引導策略搜索

5.4 信賴域策略優化

5.5 基準測試結果

Duan et al. (2016) 提出了連續控制任務的基準，包括了一些經典任務（如車柱）、具有極大狀態與動作空間的任務（如 3D 人形運動）、部分觀察任務、層次結構任務，並實施了許多演算法，包括批處理演算法：REINFORCE 演算法、截斷性自然策略梯度（TNPG）、獎勵加權回歸（RWR）、相對熵策略搜索（REPS）、信賴域策略優化（TRPO）、交叉熵方法（CEM）、自適應協方差矩陣進化策略（CMA-ES）; 也包括在線演算法：深度確定性策略梯度（DDPG）；還有批處理演算法的重複性變體。開源地址：https://github.com/openai/rllab

Duan et al.(2016) 比較了各種演算法，並表明 DDPG、TRPO 和截斷性自然策略梯度（TNPG）(Schulman et al., 2015) 在訓練深度神經網路策略中頗有成效，但分層任務（hierarchical tasks）也還需要更好的演算法。

5.6 結合策略梯度與 Q-Learning

6 獎勵

逆向強化學習（IRL/inverse reinforcement learning）是給定觀察最佳行為來確定獎勵函數的問題（Ngand Russell，2000）。在激勵學習或學徒制學習中，代理學習使用來自專家的軌跡樣本並從其演示中執行任務，代理學習沒有強化信號，在訓練時也沒有來自專家的額外數據；模仿學習的兩種主要方法是行為克隆和逆向強化學習；行為克隆被制定為監督學習問題，將狀態行動對（state-action pairs）從專家軌跡（expert trajectories）映射到策略中（Ho and Ermon，2016）。

6.1 生成對抗網路

6.2 生成對抗式模仿學

7 規劃

Tamar et al. (2016) 提出了價值迭代網路（VIN），即一個用於近似價值迭代演算法的完全可微分的 CNN 規劃模塊，它可用於學習規劃，例如強化學習中的策略。與傳統的規劃相反，VIN 是無模型的，其中的獎勵和轉移概率是要學習的神經網路的一部分，從而避免系統識別的問題。VIN 可以通過反向傳播進行端到端訓練，它也可以在一組不同的任務中泛化：VIN 可以泛化在一組不同的任務：簡單的網格世界（gridworlds）、火星車導航、連續控制和用於維基百科鏈接導航的 WebNav Challenge（Nogueira and Cho, 2016）。價值迭代網路及決鬥網路（Wang et al.，2016b）的一個優點便是它們能為強化學習問題設計新型深度神經網路架構。欲訪問有關 VIN 的博客，請點擊 goo.gl/Dr8gKL。

8 注意和記憶

注意（attention）和記憶（memory）是兩個重要的機制，在許多情況下它們一起發揮作用。

Mnih et al. (2014) 引入循環注意模型（RAM/ recurrent attention model）來關注圖像或視頻的區域或位置的選定序列，用於圖像分類和對象檢測。作者使用 RL 方法特別是 REINFORCE 演算法來訓練模型，以克服模型不可微分的問題，並對圖像分類任務和動態視覺控制問題進行實驗。Xu et al. (2015) 整合了圖像字幕的注意，用 REINFORCE 演算法訓練硬版本的注意機制，並在 Flickr8k、Flickr30k 和 MSCOCO 數據集上展示了注意的有效性。注意機制也應用到了 NLP 中，如 Bahdanau et al. (2015; 2017)，以及應用外部記憶的可微分神經計算機中（Graves et al., 2016）。

Graves et al.(2016) 提出了可微分神經計算機（DNC），其中神經網路可以從外部存儲器讀取與寫入，使 DNC 可以解決複雜的結構化的問題，而沒有讀寫存儲器的神經網路卻不能解決。DNC 將內存分配干擾最小化，並實現了長期存儲。類似於常規計算機，在 DNC 中，神經網路是控制器，外部存儲器是隨機存取存儲器；並且 DNC 用存儲來表示並操縱複雜的數據結構。不同的是，DNC 使用梯度下降來學習端對端的表示和操縱，而梯度下降的數據是目標導向的。當使用有監督學習來訓練時，DNC 可以解決合成問題來用於自然語言的推理；它可以解決交通網路中兩個站點之間的最短路徑定位問題和家庭樹中的關係推理問題。當使用強化學習來訓練時，DNC 可以解決一個使用被符號序列指定的變動性目標的移動塊拼圖。DNC 優於正常神經網路，如 LSTM 或 DNC 的前身神經圖靈機（Graves et al., 2014），若碰到更困難的問題，LSTM 可能會失敗。雖然這些實驗是相對小規模的，我們仍期望看到 DNC 的進一步改進和應用。

欲查閱 Deepmind 對於 DNC 的描述，請點擊 goo.gl/58mgoX。欲查閱注意與/或記憶的更多信息，如 Ba et al. (2014); Eslami et al. (2016); Gregor et al. (2015); Jaderberg et al. (2015); Oquab et al.(2015);Yang et al.(2015);Zagoruyko and Komodakis(2017);Zaremba and Sutskever(2015); Weston et al. (2015); Sukhbaatar et al. (2015); Ba et al. (2016); Danihelka et al. (2016); Kaiser and Bengio (2016)，請參閱 goo.gl/ArW2nE 和 goo.gl/UukROv，這是有關注意與記憶的博客。

9 無監督學習

Jaderberget al.(2017) 提出了無監督的強化輔助學習（UNREAL），通過共享一個共同的表徵（representation），並在通常的累積獎勵之外最大化偽獎勵功能，從而提高學習效率。UNREAL 通過學習大量的可能訓練信號而受益，特別是當外部獎勵信號很少被觀察到時。UNREAL 由 RNN-LSTM 基本代理，像素控制，獎勵預測和值函數重放組成。基本代理（base agent）使用 A3C 進行在策略（on-policy）訓練。觀察、獎勵和動作的經驗存儲於答覆緩衝器（reply buffer）內，以供輔助任務使用。輔助策略使用基礎 CNN、LSTM 以及解卷積網路（deconvolutional network）來使輸入圖像中不同區域的像素強度的變化最大化。獎勵預測模塊通過觀察最後三個幀來預測下一幀中的短期外在獎勵，以解決獎勵稀疏性的問題。值函數重放則會進一步訓練值函數。UNREAL 改善了 A3C 在 Atari 遊戲上的表現，並在 3D Labyrinth 遊戲中表現出色。欲訪問Deepmind有關 UNREAL 的官方博客，請點擊 goo.gl/zhqBGy。

我們將在第 13 節討論使用類似的無監督輔助學習的機器人導航以及生成式對抗網路（GAN），並在第 6 節討論近期的無監督學習框架。也請參閱Sutton et al.(2011) , 一個用於以無監督感覺運動學習互動來學習知識的可擴展實時架構 Horde.

10 學習去學習（LEARNING TO LEARN）

學習去學習與遷移學習、多任務學習或表徵學習相關，是形成實現強大人工智慧的核心要素之一（Lake et al., 2016）。學習去學習也與元學習（meta learning）和一次性學習（one-shot learning）有關。

Duan et al. (2017) 和 Wang et al. (2016a) 提出通過學習一個靈活的 RNN 模型來處理一系列 RL 任務，從而能夠提高樣本效率，能夠從幾個樣本中學到新任務，並且可以從先驗知識中獲益。此代理使用 RNN 建模，並輸入了觀察、獎勵、行動和終止標誌；它使用 RL，Duan et al.（2017）提出的 TRPO 和 Wang 等（2016a）的 A3C 演算法來訓練 RNN 的權重，並且在使用特定 RL 演算法解決的多個問題中表現相似。Duan 等在 2017 年使用多臂賭博機、表 MDP 和視覺導航進行了實驗，並指出對於較大型的問題，需要更好的 RL 演算法來訓練 RNN。Wang et al.（2016a）對獨立臂賭博機、依賴臂賭博機、持續性臂和 MDP 進行了實驗。未來的工作方向之一便是提高可擴展性。

Li 和 Malik 在 2017 年建議通過將特定的優化演算法表示為策略，將收斂速度表示為獎勵，以引導策略搜索（Levine et al.，2016a）來使無約束連續性優化演算法自動化。

11 Games（博弈/遊戲）

遊戲為強化學習/人工智慧演算法提供了非常好的測試平台。我們在第 3 節討論了深度 Q 網路（DQN）及其延展，所有這些都在 Atari 遊戲上做了測試。我們在第 4 節討論了 Mnih et al. (2016)，在第 9 節討論了 Jaderberg et al. (2017)，在第 13 節討論了 Mirowski et al. (2017)——他們使用了 Labyrinth 作為測試平台。

西洋雙陸棋和圍棋是完美信息博弈（perfect information games）。我們在 11.1 討論了西洋雙陸棋這樣的棋盤遊戲。在 11.2 討論了 Doom 這樣的視頻遊戲。我們將撲克遊戲放到了 11.3，討論了非完美信息博弈（imperfect information games），其中涉及到了博弈論（game theory）。Labyrinth 和 Doom 等視頻遊戲通常是非完美博弈，但是目前還沒有使用博弈論來解決這些問題。

我們將 AlphaGo(Silver et al., 2016) 單獨成了第 12 節，因為其有很大的重要性。

11.1 棋盤遊戲

11.2 視頻遊戲

11.3 非完美信息博弈

12 AlphaGo

AlphaGo (Silver et al., 2016) 是一個計算機圍棋程序，其在 2015 年 10 月份以 5 局全勝擊敗了歐洲圍棋冠軍，成為了第一個在全尺寸 19×19 棋盤上無讓子地擊敗了人類職業棋手的計算機圍棋程序。不久之後，2016 年 3 月份，AlphaGo 以 4:1 的成績擊敗了曾獲 18 次世界冠軍的圍棋手李世石，引起了世界的廣泛關注。這是人工智慧發展的一個里程碑。圍棋問題的困難之處不僅在於其超大的搜索空間（search space）——250^150，一個天文數字；而且也是因為其局面評估（position evaluation）的難度非常大，而西洋雙陸棋和國際象棋等遊戲已經通過局面評估得到了解決。

12.1 訓練流程和蒙特卡洛樹搜索（MCTS）

我們在 Silver et al. (2016) 與 Sutton and Barto (2017) 的基礎上簡要討論了 AlphaGo 的工作方式。參見 Sutton and Barto (2017) 中第 16 章可了解 AlphaGo 的詳細和直觀描述。DeepMind 對 AlphaGo 的描述可查閱：goo.gl/lZoQ1d

AlphaGo 是使用深度 CNN 技術、監督學習、強化學習和蒙特卡洛樹搜索（MCTS）(Browne et al., 2012; Gelly et al., 2012) 打造的。AlphaGo 的工作分成了兩個階段：神經網路訓練流程和 MCTS。其訓練流程階段包括根據專家的走子訓練一個監督學習策略網路、快速部署策略、強化學習策略網路和強化學習價值網路。

13-21：強化學習的應用介紹

這幾節介紹了強化學習的不同類型的應用，這裡簡單給出目錄，詳情請查閱原論文。

13 機器人學

14 口語對話系統

15 機器翻譯

16 文本序列預測

17 神經架構設計

18 個性化網路服務

19 醫療保健

20 金融

21 音樂生成

22 未來工作

下面我們列出了上面的概述中沒有討論到的有趣的和/或重要的研究方向/論文，希望能夠為有興趣進一步研究它們的人提供信息入口。這也將是我們未來工作的一部分。

? 理解機器學習（understanding deep learning）, Daniely et al. (2016); Li et al. (2016b); Zhang et al. (2017)

? 探索（exploration）如：Stadie et al. (2015); Bellemare et al. (2016); Kulkarni et al. (2016); Osband et al. (2016); Nachum et al. (2017)

? 基於模型的學習（model-based learning）如：Oh et al. (2015); Gu et al. (2016b)

? 回溯演算法（retrace algorithm）, Munos et al. (2016)

? 預測（predictron）, Silver et al. (2017)

? 遷移/多任務強化學習（transfer/multitask RL）如： Maurer et al. (2016); Mo et al. (2016); Parisotto et al. (2016), NIPS 2015 Transfer and Multi-Task Learning: Trends and New Perspectives Workshop

? 半監督強化學習（semi-supervised RL）如：Finn et al. (2017)

? deep symbolic RL, Garnelo et al. (2016)

?內在動機（intrinsic motivation）如：Stadie et al. (2015); Kulkarni et al. (2016); Oudeyer et al. (2016)

? 超參數學習（hyperparameter learning）如：Andrychowicz et al. (2016)

? 信息提取（information extraction）如：Narasimhan et al. (2016)

? 文本博弈（text games）如：He et al. (2016b); Narasimhan et al. (2015)

? 語言樹結構學習（language tree-structure learning）如：Yogatama et al. (2017)

? 問答系統（question answering）如：Shen et al. (2016); Trischler et al. (2016)

? 大型動作空間（large action space）如：Dulac-Arnold et al. (2016); He et al. (2016c)

? 適應性規範化（adaptive normalization）, van Hasselt et al. (2016b)

? 自動駕駛載具（self-driving vehicle）如：Bojarskietal.(2016),NIPS 2016 Workshop on Machine Learning for Intelligent Transportation Systems

? 智能電網（smart grid）如： Wen et al. (2015b)

? 通信網路（communication networks）如： Mestres et al. (2016)

? 物理實驗（physics experiments）如： Denil et al. (2016)

? 深度概率編程（deep probabilistic programming）, Tran et al. (2017)

? 深度博弈學習（deep learning games）, Schuurmans and Zinkevich (2016)

? 程序學習（program learning）如：Reed and de Freitas (2016)

? 量子強化學習（quantum RL）如：Crawford et al. (2016), NIPS 2015 Workshop on Quantum Machine Learning

23 資源

我們列出了一些用於深度強化學習的資源，當然並不能做到完全。

23.1 書籍

? Richard S. Sutton 和 Andrew G. Barto 所著的毫無疑問的和直觀的強化學習書 (Sutton and Barto, 2017)

? 簡明和理論性的《Algorithms for Reinforcement Learning》，作者：Csaba Szepesv′ari (Szepesv′ari, 2010)

? 一本關於近似動態編程的理論書籍，作者：Dimitri P.Bertsekas(Bertsekas, 2012)

? 一本面向運籌學的書《Approximate Dynamic Programming》，作者：WarrenB. Powell (Powell, 2011)

?《Deep Learning》，作者：IanGoodfellow, Yoshua Bengio 和 Aaron Courville (Goodfellow et al., 2016)

23.2 課程

? David Silver, 強化學習（Reinforcement Learning）, 2015, 幻燈片：goo.gl/UqaxlO，視頻：goo.gl/7BVRkT

? Sergey Levine, John Schulman and Chelsea Finn, CS 294: 深度強化學習（Deep Reinforcement Learning）2017 年春季課程, http://rll.berkeley.edu/deeprlcourse/

? Charles Isbell, Michael Littman and Pushkar Kolhe, Udacity: 機器學習：強化學習（Machine Learning: Reinforcement Learning）, goo.gl/eyvLfg

? Nando de Freitas, 深度學習課程（Deep Learning Lectures）, https://www.youtube.com/user/ProfNandoDF

23.3 教程

? David Silver, 深度強化學習（Deep Reinforcement Learning）, ICML 2016

? Pieter Abbeel 和 John Schulman, 通過策略優化的深度強化學習（Deep Reinforcement Learning Through Policy Optimization）, NIPS 2016

? 吳恩達，使用深度學習開發人工智慧應用的基本要點（Nuts and Bolts of Building Applications using Deep Learning）, NIPS 2016

? John Schulman，深度強化學習研究的基本要點（The Nuts and Bolts of Deep Reinforcement Learning Research），深度強化學習研討會, NIPS 2016

? John Schulman, 深度強化學習（Deep Reinforcement Learning）, Deep Learning School, 2016

? Deep Learning Summer School, 2016, 2015

23.4 會議、期刊和研討會

? NIPS: 神經信息處理系統

? ICML: 國際機器學習大會

? ICLR: 國際學習表徵大會

? RLDM: 強化學習與決策多學科會議

? AAAI, IJCAI, ACL, EMNLP, SIGDIAL, ICRA, IROS, KDD, SIGIR, CVPR, 等

? Science Robotics, JMLR, MLJ, AIJ, JAIR, PAMI, 等

? Nature May 2015, Science July 2015, 搜索關於機器學習/人工智慧的論文

? Deep Reinforcement Learning Workshop, NIPS 2016, 2015; IJCAI 2016

? Deep Learning Workshop, ICML 2016

23.5 博客

? Junling Hu, Reinforcement learning explained -learning to act based on long-term payoffs

? 鄧力，深度強化學習可以如何幫助打造聊天機器人（How deep reinforcement learning can help chatbots）

24 討論

這是深度強化學習最好的時代，也是深度強化學習最壞的時代，而原因卻是一樣的：它以驚人的速度在發展。我們已經看到了突破、激動人心的新方法和應用，並且還有望看到更多和見證更快的發展。因此，不管是在深度還是在廣度上，這篇概述都是不完整的。但是，我們也盡量總結這一驚人領域的重要成就並討論其潛在的方向和應用。

深度強化學習這一領域的進步是有目共睹的，在不到兩年時間內，我們就看到 Nature 上發表了三篇使用了深度強化學習的論文：深度 Q 網路（deep Q-network）(Mnih et al., 2015)、AlphaGo (Silver et al., 2016) 和可微分神經計算機 (Graves et al., 2016)；我們也已經見證了許多深度 Q 網路上的擴展、改進和應用。注意和記憶機制（Graves et al., 2016）也得到了很大的關注。

2016 年，使用了深度強化學習的全新架構和應用在許多頂級會議上被評選為最佳（學生）論文：ICML 上的決鬥網路（dueling network）架構（Wang et al., 2016a）、ACL 上的口語對話系統（Su et al., 2016b）（學生論文）、EMNLP 上的信息提取（Narasimhan et al., 2016）、以及 NIPS 上的價值迭代網路（value iteration networks）(Tamar et al., 2016)。激動人心的成就比比皆是：非同步方法（Mnihetal.,2016）、用於機器翻譯的雙學習（dual learning）（Heetal., 2016a）、有引導的策略搜索（Levine et al., 2016a）、生成對抗式模仿學習（Hoand Ermon, 2016）、無監督強化和輔助學習（Jaderberg et al., 2017）、神經架構設計（Zoph and Le, 2017）等等。

價值函數是強化學習的核心，比如在深度 Q 網路及其許多擴展中。策略優化方法已經在許多不同的應用領域得到了關注，比如：機器人、神經架構設計、口語對話系統、機器翻譯、注意（attention）和學習去學習（learning to learn）等等，不能勝舉。新的學習機制也在湧現，比如：使用無監督/半監督/遷移學習來提升學習的質量和速度，而且更多的新機制還將湧現。這是強化學習的復興（Krakovsky, 2016）。事實上，即使是在「人工智慧的冬天」，強化學習和深度學習也在不斷發展進步。

考慮學習模型的問題是非常關鍵的，這些問題包括穩定性、收斂性、準確度、數據效率、可擴展性、速度、簡潔性、可解釋性、穩健性和安全性等。調查評論/批評也是很重要的，這些批評可能來自認知科學領域，涉及到直觀物理學、直觀心理學、因果模型、組合性、學習去學習、實時運行（Lake et al., 2016）等問題；這能夠幫助我們打造出更強大的人工智慧。也請參考 Peter Norvig 的觀點 goo.gl/obvmVB.

在這第三波人工智慧的大潮下，深度學習將會有更為深度的影響，正如我們已經見證的許多成就一樣。強化學習作為一種更為通用的學習和決策範式，將會給深度學習、機器學習和廣義上的人工智慧帶來深遠的影響。這裡提一件有趣的故事，當 Rich Sutton 教授 2003 年在阿爾伯塔大學開始工作時，他將他的實驗室命名為了 RLAI：Reinforcement Learning and Arti?cial Intelligence（強化學習與人工智慧實驗室）。

致謝

感謝來自Baochun Bai, 胡峻玲（Junling Hu）, Ruitong Huang, Lihong Li, Dale Schuurmans, David Silver, Rich Sutton, Csaba Szepesvari, Yi Wan 和 Qing Yu的建議。任何剩餘錯誤為本文作者所出。本文同時受益於各類研討會/網上討論，特別是2016年4月在MIT舉行的AlphaGo研討會，以及2016年10月份『機器之心』北美系列巡遊活動中在多倫多大學、McGill大學和阿爾伯塔大學舉辦的深度（強化）學習研討會。另外也要感謝2016年11月關於David Silver幻燈片的網上研討會，以及幾個微信群組中的討論。

參考文獻（略）

您的贊是小編持續努力的最大動力，動動手指贊一下吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※機器之心發布吉祥物，你猜到了嗎？
※感謝的是我們依然充滿好奇……和孤獨
※D-Wave再度升級:研發出2000量子比特量子計算機
※業界｜為推進科學研究，谷歌呼籲建立標準的數據生態系統
※機器學習新技術，讓病人聲音成為診斷依據

TAG:機器之心 |

您可能感興趣

※全面解讀深度強化學習：從基礎概念到AlphaGo
※吳恩達Deeplearning.ai課程學習全體驗：深度學習
※深度學習先驅 Yoshua Bengio 解讀深度學習的關鍵突破點：無監督學習
※全球計算機H-index TOP 10華人Philip S. Yu】從深度學習到廣度學習
※DeepMind 開源內部深度學習框架 Sonnet，研究通過梯度下降學習
※Facebook開源基於強化學習的端到端談判AI
※深度定製：揭秘Graphcore深度學習晶元加速軟體
※「深度學習Github 10萬+源代碼分析」Python是第三受歡迎語言
※學習Python編程的19個資源
※百度開源新一代深度學習硬體測試工具：覆蓋Titan Xp到iPhone7
※21個優秀的學習資源Kotlin
※深度學習（Deep Learning）發展史
※全球500強個性化學習平台EdCast收購機器學習技術公司Sociative
※很好的數學實驗軟體Mathematica學習資源與數學知識庫
※Apache ZooKeeper進一步學習
※英特爾推出用於Apache Spark的深度學習庫
※XGBoost與深度學習到底孰優孰劣？都說XGBoost好用，為什麼名氣總不如深度學習？
※牛津大學聯合DeepMind發布LipNet：用深度學習讀懂你的唇語
※java學習 JavaScript學習心得