DeepMind主攻的深度強化學習3大核心演算法及7大挑戰

新聞 08-23

涵蓋深度強化學習的核心演算法，包括深度Q網路、置信區域策略優化和A3C，重點介紹領域的7大研究方向

新智元編譯

來源：ArXiv

作者：Kai Arulkumaran, Marc Peter Deisenroth,

Miles Brundage, Anil Anthony Bharath

編譯整理：文強，朱煥

【新智元導讀】深度強化學習將有助於革新AI領域，它是朝向構建對視覺世界擁有更高級理解的自主系統邁出的一步。本文將涵蓋深度強化學習的核心演算法，包括深度Q網路、置信區域策略優化和非同步優勢actor-critic演算法（A3C）。同時，重點介紹深度強化學習領域的幾個研究方向。

本文預計在IEEE信號處理雜誌「圖像理解深度學習」專刊發表。作者Kai Arulkumaran是倫敦帝國理工大學的博士生，Marc Peter Deisenroth是倫敦帝國理工大學的講師，Miles Brundage是亞利桑那州立大學博士生，Anil Anthony Bharath是倫敦帝國理工大學的Reader。

摘要

深度強化學習將有助於革新AI領域，它是朝向構建對視覺世界擁有更高級理解的自主系統邁出的一步。目前，深度學習使強化學習能夠擴展到解決以前難以解決的問題，比如直接從像素學習玩視頻遊戲。深度強化學習演算法也適用於機器人領域，讓機器人能直接從現實世界的攝像機輸入中學習控制策略。在本次調查中，我們將首先介紹一般的強化學習，然後逐步推進到主流的基於價值和基於策略的方法。我們的調查將涵蓋深度強化學習的核心演算法，包括深度Q網路、置信區域策略優化和非同步優勢actor-critic演算法（A3C）。同時，我們強調了深度神經網路的獨特優勢，重點介紹通過強化學習進行視覺理解。最後，我們介紹了該領域當前的幾個研究方向。

引言：深度強化學習已被用於解決各種問題，最終將成為通用AI的重要部分

人工智慧（AI）領域的主要目標之一是製作全自主的智能體，能通過與周圍環境互動學習優化自己的行為，通過不斷試錯改善自我。打造反應靈敏、能有效學習的AI一直是長期的挑戰，無論是機器人（可以感覺和對周圍世界做出反應）還是純粹的基於軟體的智能體（通過自然語言和多媒體進行互動）。對於這種由經驗驅動的自主學習，一個主要的數學框架是強化學習（RL）。雖然RL在過去有一些成功，但以前的方法缺乏可擴展性，而且固有地局限於相當低維度的問題。這些限制之所以存在，是因為RL演算法也有其他演算法那樣的複雜性問題：內存複雜度、計算量複雜度，具體到機器學習演算法，還有樣本複雜度。最近我們所見到的——深度學習的興起，依靠深度神經網路強大的函數逼近和表示學習性質——為我們提供了新的工具，去克服這些問題。

深度學習的出現對機器學習中的許多領域產生了重大影響，大大提高了物體檢測、語音識別和語言翻譯等任務的state-of-the-art成績。深度學習最重要的特點在於，深度神經網路可以自動發現高維度數據（例如，圖像、文本和音頻）的緊湊的低維表示（特徵）。通過將推演偏差（inductive biases）融入到神經網路架構中，特別是融入到層次化的表示中，機器學習從業者在解決維度詛咒方面取得了有效進展。深度學習同樣加速了RL的發展，使用RL內的深度學習演算法提出了「深度強化學習」（DRL）方向。這項調查的目的是介紹DRL的最新重要發展，介紹使用神經網路更接近開發自主智能體的創新方式。

深度學習使RL可以擴展到解決以前難以處理的決策問題，即具有高維狀態和動作空間的情景。在最近的DRL領域的工作中，有兩個傑出的成功案例。第一個是開發一種可以直接從圖像像素學習的演算法，在一系列Atari 2600視頻遊戲中表現都超越了人類水平。這項工作為RL中的函數逼近不穩定提供了解決方案，第一次令人信服地證明RL智能體可以僅基於獎勵信號，使用原始的高維度觀察信息進行訓練。第二個突出的成就是開發了一個混合的DRL系統AlphaGo，在圍棋中擊敗了一個人類世界冠軍，與20多年前IBM Deep Blue的歷史性成就和IBM Watson的DeepQA系統相媲美。與主導棋牌系統的手工定製的規則不同，AlphaGo由使用監督學習和強化學習訓練的神經網路，結合傳統的啟發式搜索演算法而成。

DRL演算法已被應用於各種各樣的問題，例如機器人技術，創建能夠進行元學習（「學會學習」learning to learn）的智能體，這種智能體能泛化處理以前從未見過的複雜視覺環境。在圖1中，我們展示了應用DRL的一些領域，從玩視頻遊戲到室內導航。

視頻遊戲是一個有趣的挑戰，但學習如何玩遊戲不是DRL的最終目標。DRL背後的驅動力之一是創造能夠在現實世界中學習如何適應環境的系統。從管理電力消耗到拾取和收集物體，DRL通過學習來增加可以自動化的物理任務的數量。然而，DRL並不止於此，因為RL是通過試錯接近優化問題的一般方法。從設計最先進的機器翻譯模型到構建新的優化函數，DRL被用於處理各種機器學習任務。就像深度學習被廣泛用於各種機器學習分支任務一樣，未來DRL也很可能將是構建通用AI系統的一個重要組成部分。

由獎勵驅動的行為

在研究深度神經網路對RL的貢獻之前，我們將介紹一般的RL領域。RL的本質是通過互動學習。RL智能體與其環境進行交互，在觀察到其行為的後果時，可以學習改變自己的行為以對得到的回報做出響應。這種試錯法的範例源於行為心理學，是RL的主要基礎之一。對RL的另一個關鍵影響是最優控制，是數學形式主義（尤其是動態規劃）的概念。

在RL設置中，由機器學習演算法控制的自主智能體在時間步長t觀察其環境中的狀態st。當智能體採取動作時，環境和智能體將根據當前狀態和所選動作轉換到新狀態st+1。狀態是一個足夠靜態的環境，包括了智能體採取最佳行動的所有必要信息。行動的最佳順序由環境提供的獎勵決定。每當環境轉變到新的狀態時，它還會向智能體提供一個標量獎勵值+ 1作為反饋。智能體的目標是學習最大限度地提高預期收益（累積、貼現獎勵）的策略（控制策略）π。給定一個狀態，一個策略返回一個執行動作；最優策略是使環境中預期回報最大化的任何策略。在這方面，RL旨在解決與最佳控制相同的問題。然而，RL中的挑戰是智能體需要通過反覆試驗了解環境中行為的後果，因為與最優控制不同，智能體不能使用狀態轉換動態模型。與環境的每一次互動都會產生信息，智能體用它來更新其知識，這種感知-行動-學習循環在下圖中展示了出來。

A. 馬爾科夫決策過程

RL可被描述為一種馬爾科夫決策過程（MDP）。RL的關鍵概念是Markov屬性，即僅當前狀態影響下一狀態，換句話說，未來有條件地獨立於給定當前狀態的過去。雖然這個假設是由大多數RL演算法來實現的，但它有些不現實，因為它要求狀態是完全可觀察的。MDP的一種泛化形式是部分可觀察的MDP（POMDP），在POMDP中智能體接收到一個狀態的分布，取決於當前狀態和前一個行動的結果。深度學習中更常見的一種方法是利用循環神經網路（RNN），與神經網路不同，RNN是動態系統。這種解決POMDP的方法與使用動態系統和狀態空間模型的其他問題有關，其中真實狀態只能去估計。

B. 強化學習的挑戰

指出RL面臨的一些挑戰對了解DRL具有啟發：

最優策略必須通過與環境互動試錯來學習。唯一的學習信號是智能體收到的是獎勵。

智能體觀察到的信息取決於其行為，可能包含強烈的時間相關性

智能體必須處理遠程時間依賴關係：通常，一個行動的後果要經過環境很多次轉變才會實現。這也被稱為（時間）信用分配問題

以室內機器人視覺導航任務為例：如果指定了目標位置，我們可能能夠估計剩餘距離（並將其用作獎勵信號），但是我們不可能知道機器人究竟會採取哪些行動達到目標。由於機器人在導航建築物時必須選擇去哪裡，它的決定會影響到它看到的房間，因此影響了所捕獲的視覺序列的統計。最後，在導航幾個路口後，機器人可能會發現自己處於死胡同。從學習行動的後果到平衡探索都存在種種問題，但最終這些都可以在RL的框架內正式解決。

深度強化學習：價值函數和策略選擇

價值函數

A. 函數逼近和DQN

我們對基於價值函數的DRL演算法的討論，從深度Q網路（如下圖所示）開始，該演算法在經典Atari 2600視頻遊戲中獲得了普遍的成功，性能堪比專業的視頻遊戲測試人員。DQN的輸入是遊戲的四個灰度幀，隨著時間的推移連接，最初由幾個卷積層處理，以便提取時空特徵，例如「Pong」或「Breakout」中球的移動。最終，來自卷積層的特徵圖由幾個全連接的層來處理，這更多隱含編碼地動作的效果。這與使用固定預處理步驟的更傳統的控制器形成對照，因此，它們不能適應其對學習信號的狀態處理。

DQN與Lange等人提出的模型密切相關，但是DQN是第一個被證明可以直接從原始的視覺輸入學習並且在多種環境中工作的RL演算法。DQN最終的全連接層輸出一組離散的動作，這不僅能夠在網路的單次向前傳遞之後選擇最佳動作，而且允許網路更容易地在較低卷積層中編碼與動作無關的知識。DQN的目的只有一個，最大限度地提高視頻遊戲的分數，僅僅如此，智能體就學會了提取突出的視覺特徵，聯合對物體、運動以及彼此的交互進行編碼。使用最初開發用於解釋CNN在物體識別任務中的行為的技術，我們還可以查看智能體認為視圖中重要的部分（參見下圖）。

DQN通過使用兩種技術來解決在RL中使用函數逼近的基本不穩定性問題：經驗重放和目標網路。經驗重放使得RL智能體能夠從先前觀察到的數據離線進行抽樣和訓練。這不僅大大減少了環境所需的交互量，而且可以對一批經驗進行抽樣，減少學習更新的差異。此外，通過從大存儲器均勻採樣，可能對RL演算法產生不利影響的時間相關性被打破了。最後，從實際的角度看，可以通過現代硬體並行地高效地處理批量的數據，從而提高吞吐量。雖然原始DQN演算法使用均勻採樣，但後來的工作表明，基於TD誤差的優先順序樣本對於學習更有效。雖然經驗重放通常被認為是一種無模型技術，但實際上它可以被認為是一個簡單的模型。

Mnih等人引入的第二種穩定方法，是使用一個目標網路，這個目標網路最初包含執行策略的網路的權重，但是被凍結住很長時間。基於其自身快速波動的Q值估計，不必計算TD誤差，策略網路使用固定的目標網路。在訓練過程中，目標網路的權重將被更新，以便在固定數量的步驟之後與策略網路匹配。經驗重返和目標網路已經在隨後的DRL工作中得到使用。

B. Q函數修正

將DQN的關鍵部分之一視為Q函數的一個函數逼近，可以受益於RL的基本進步。van Hasselt 顯示了，在Q學習更新規則中使用的單個估計器高估了使用最大動作值作為最大預期動作值的近似值而導致的預期回報。雙重學習通過使用雙重估計來提供更好的估計。雖然雙重Q學習需要額外的函數來學習，後來的工作提出使用DQN演算法中已有的目標網路，從而在只發生很小的變化的情況下得到了更好的結果。

調整DQN架構的另一種方法是將Q函數分解為有意義的函數，例如通過將計算狀態值函數V和優勢函數Aπ的不同層相加在一起構建Qπ。Duelling DQN 不會計算出所有行動的精確Q值，而是將以Vπ的形式從狀態的單一基準中受益。Duelling DQN與優先經驗重放（prioritised experience replay）的結合，是離散動作設置條件中最先進的技術之一。

Gu等人進一步了解Aπ的性質後，用凸優勢層修改DQN，擴展了演算法對連續動作的集合，創建了歸一化優勢函數（NAF）演算法。受益於經驗重放、目標網路和優勢更新，NAF是連續控制問題中幾種最先進的技術之一。

策略搜索

策略搜索方法旨在通過無梯度或梯度方法直接查找策略。在目前大家對DRL的興趣激增之前，DRL中的幾個成功的方法沒有使用常用的反向傳播演算法，而是選擇了遺傳演算法，後者便是無梯度的策略搜索演算法。遺傳方法依賴於評估一組智能體的表現。因此，對於具有許多參數的一大群智能體來說遺傳演算法的使用成本很高。然而，作為黑盒優化方法，它們可以用於優化任意的不可微分的模型，並且天然能夠在參數空間中進行更多的探索。結合神經網路權重的壓縮表示，遺傳演算法甚至可以用於訓練大型網路；這種技術也帶來了第一個直接從高維視覺輸入學習RL任務的深度神經網路。由於遺傳演算法能比依賴梯度的技術分布在更大的規模，最近又有工作重新燃起了對RL遺傳方法的興趣。

A. 通過隨機函數進行反向傳播

話雖如此，DRL的主力仍然反向傳播。REINFORCE規則讓神經網路能以任務相關的方式學習隨機策略，例如決定在哪裡查看圖像以進行跟蹤、分類或生成圖說。在這些情況下，隨機變數將決定圖像的小部分坐標，從而減少所需的計算量。使用RL進行離散、隨機的決策，在深度學習文獻中被稱為「hard attention」，是近年來基礎策略搜索方法中引人注目的一個方向，在傳統的RL域之外有許多應用。策略搜索中的一個引入注意的新方法是置信區域策略優化（TRPO），通過防止策略過於偏離過去的策略，保證政策的逐步改進。在標準策略梯度方法之上，TRPO使用置信區域的概念，將優化步驟限制在真實成本函數的近似值所在的區域內。與以前的作品相比，TRPO將每個策略更新限制為與當前策略的固定KL分離，從而導致動作條件p（a | s），這對於當前網路更為可行。以後Schulman等人的工作引入了廣義優勢估計（GAE），為策略梯度方法提出了更先進的方差減少基線。TRPO和GAE的組合仍然是連續控制中最先進的RL技術之一。

B. Actor-Critic方法

Actor-Critic方法將策略搜索方法的優點與學習到的價值函數結合起來，從而能夠從TD錯誤中學習，近來很受歡迎。AC方法可以從策略梯度方法的改進中受益，如GAE和價值函數方法，如目標網路。在過去幾年中，DRL AC方法已經從圖像像素直接從學習模擬物理任務，還被應用到真正的機器人視覺導航任務中。

AC演算法最近的一個發展是確定性政策梯度（DPG），它將隨機策略的標準策略梯度定理擴展到確定性策略。DPG的一個主要優點是，雖然隨機策略梯度在狀態和行動空間上都融合在一起，但DPG僅在狀態空間上整合，在較大的行動空間中需要較少的問題樣本。在DPG的初步工作中，Silver等人介紹並展示了一種離線策略AC演算法，該演算法在高維連續控制問題中的隨機策略梯度有了相當大幅度地提高。後來的工作介紹了深度DPG（DDPG），DDPG利用神經網路來操作高維視覺狀態空間。與DPG一樣，Heess等人設計了一種用於計算梯度來優化隨機策略的方法，通過「重新參數化」處理網路的隨機性，從而能使用標準梯度（而不是高變化REINFORCE估計器）。所得到的隨機價值梯度（SVG）方法十分靈活，可以與價值函數critic（或學習模型）一起使用，也可以在沒有價值函數critic（或學習模型）的情況下單獨使用。隨後的工作就是將DPG和SVG與RNN集成在一起，從而可以解決POMDP中的連續控制問題，直接從像素學習。

原始的A3C演算法已經取得了幾個重大進展，反映了DRL領域的各種動機。第一個是具有經驗重放的AC演算法，能夠使用經驗重放來提高樣本的複雜性。其他人試圖彌合價值與策略RL之間的差距，利用理論進步改善原有的A3C。最後，利用輔助任務來改進DRL學習到的表示，提高了智能體的學習速度和最終性能。

當前的研究和挑戰

總而言之，我們將強調目前深度強化學習的一些研究領域以及仍然存在的挑戰。先前，我們主要關注非模型的方法，但是我們現在將詳細檢查幾個基於模型的深度強化演算法。基於模型的強化學習演算法在提高強化學習的數據有效性方面起著重要的作用, 也有助於對演算法的探索性方面和開發性方面進行平衡。在處理了各種探索性策略後，我們將處理層次化強化學習（HRL），這種演算法通過將內容分解為多個層次，向最終決策中引入了歸納性偏見（inductive bias）。當可以獲得相關資源時，也可以用其他系統控制器的學習軌跡來引導學習過程，從而引導我們進入模仿學習和逆向強化學習。接著，我們將考察多主體系統，這些系統具有自己的特殊性。之後，我們會將目光轉向兩個更廣闊的領域：在深度強化學習的背景下使用循環神經網路和遷移學習。此後，我們將考察應該如何評估強化學習，以及深度強化學習的現有基準測試有哪些。

A. 基於模型的強化學習

基於模型的強化學習背後的關鍵思想是：去學習一個轉變性模型，這個模型讓我們能夠模擬環境，但卻不必直接與環境交互。基於模型的強化學習不會假定任何特定的先驗知識。但是，實踐中，我們可以結合先前的知識（例如物理模型）來加快學習。模型學習的重要作用是，減少需要與真實環境進行互動的次數，因為在實踐中這種互動可能是受限的。例如，讓機器人在有限時間內執行數百萬次實驗、且不產生重大的硬體損耗，這是不切實際的。有各種各樣的方法，能夠利用像素信息來學習動力系統的預測模型。基於深度動力學模型，通過將高維度觀察信息用自動編碼器嵌入到低維空間，已經有幾個基於模型的深度強化學習演算法已被用於學習來自像素信息的模型和策略。

如果能學習獲得一個足夠準確的環境模型，那麼即使是簡單的控制器也可以用來直接通過相機圖像控制機器人。學習模型也可以通過對環境的模擬來指導探索活動，深度模型還進一步允許將這些技術擴大到高維視覺領域。

雖然深度神經網路可以在數百個時間步長的模擬環境中做出合理的預測，他們通常需要許多樣本來調節大量的參數。與簡單模型相比，訓練這些模型通常需要更多的與環境互動的樣本。因此，Gu等學者訓練了用於NAF演算法的局部線性模型（該模型等價於DQN）來改善演算法在機器人領域的樣本複雜度，因為在該領域中樣本通常價格昂貴。看起來，由於能提高神經網路的數據有效性，在基於模型的深度強化模型中使用深度模型這種進路將會得到更廣泛的應用。

B.探索與開發

強化學習的最大困難之一是，在探索性活動與開發性活動之間的兩難困境：什麼時候主體應該去嘗試那些自認為的非最佳行動以便探索環境並改善模型，什麼時候主體應該進行最佳行動，以便獲得有用的進展？

DQN等離線策略演算法通常使用簡單?-貪婪探索策略，以? in [0,1] 的概率隨機選擇是否執行最佳動作。通過逐步減少? 的取值，隨著時間的推移，主體逐漸從探索過渡到開發。雖然加入獨立探索雜訊可用於解決連續控制問題，更複雜的策略是注入在時間過程中彼此相關的雜訊，以便更好地保持動量。

由於觀察到時間相關性很重要，Osband等人提出了自舉性DQN。這種演算法維持著若干個Q值「頭部」，它們可以通過聯合不同的初始權重和來自經驗重放記憶的自舉性取樣來學習不同的值。在每個訓練期的開始，都會選擇一個不同的「頭部」，由此來引導在時間上擴展的探索。Usunier 等人之後提出了一種類似的方法來探索策略空間，通過添加雜訊來篩選輸出的「頭部」，使用零階梯度估計來允許策略的反向傳播。

一個重要的探索性策略是上信度限制（UCB）演算法，它所依據的是「以樂觀策略面對不確定性」這個想法。UCB演算法背後的想法是，選擇能夠最大化E[R]+kσ[R]的演算法其中σ[R]是回報值的標準差且k>0。這樣， UCB 能夠在那些具有高度不確定性和中等程度的預期回報的區域中進行探索。這種演算法不僅容易在小型案例中實現，現在使用強大的密度模型已經可以將這個演算法擴展到高維度的具有深度強化學習的視覺領域。 UCB只是在貝葉斯優化的背景下對探索和開發進行平衡的演算法之一。未來對貝葉斯優化演算法的其他研究也將令深度強化學習受益。

UCB也可以被認為是一種實現「內在動機」的方式，而這種內在動機的一般概念倡導在對環境的學習過程中減少不確定性和取得進展。已經有幾種深度強化學習演算法試圖通過最小化模型預測誤差或最大化信息增益來實現內在動機。

C.層次性強化學習

正如深度學習依賴於各種特徵的層次等級那樣，層次性強化學習依賴各種政策的層次結構。這個領域的早期工作引入了「選項」的概念。在「選項」中，一個策略除了可以執行單時間步驟的最簡單行動之外，也可以運行其他策略，從而產生多時間步驟的行動。這種方法允許讓頂級策略則側重於更高層次的目標，同時讓下級策略來負責精細管理。有幾個深度強化學習的工作都採用了層次性強化學習，它們使用一個頂級策略在不同的下級策略之間進行選擇，而對狀態和目標的區分則要麼手動實現，要麼自動實現。其中有助於構建子策略的方式是，聚焦於是發現和實現目標，而目標可以被看作是環境中的特定狀態。這些目標可以是特定的空間位置，這樣主體可以把自己導航到那裡。不論是否使用層次性強化學習，對目標的發現和泛化都是現有研究的重要方面。

D.模仿學習和逆向強化學習

人們可能會問，如果給出一系列由專家演示得到的「最佳」行動，那麼就無法直接使用監督學習。這就是所謂的「從演示中學習「的問題。然而，這實際上是可能的，在傳統強化學習文獻中這被稱為行為克隆。

通過充分利用監督學習中可用較強信號，行為克隆在早期神經網路研究中曾獲得成功，其中最顯著的成果是 ALVINN，最早的自主駕駛車輛。然而，行為克隆不能適應新的情況，而且在執行學到的策略期間，只要對演示內容有小小的偏離，就可能進入一種令策略無法恢復的情境。一個更通用的解決方案是，使用已有的軌跡來指導對」狀態-行動「搭配的學習，但使用強化學習來對主體進行微調。

逆向強化學習的目標是，從觀察到的、能解決問題的行動軌跡中估算出未知的獎勵函數。逆向強化學習可以和強化學習聯合起來提高已被演示過的行動。通過使用深度神經網路的力量，現在可以用逆向強化學習方法來學習複雜的非線性獎勵函數。 Ho和Ermon 的研究表明，各個策略可以用其被使用率（狀態訪問量和動動作分布）來唯一地表徵，這樣，將可以將逆向強化學習還原為測量匹配的問題。有了這一洞見，這兩位研究者就能夠使用生成對抗訓練，從而能更靈活地進行獎勵函數的學習，並得出一種生成對抗性的模擬學習演算法(GAIL) 。GAIL後來得到了進一步的擴展，允許當作為軌跡來源的其他主體的視角與強化學習主體的視角不同時，仍能運用逆向強化學習。在後續工作中，Baram 等人利用在 GAIL 中未使用的梯度信息以在逆向強化學習過程中學習模型。

E 多主體強化學習

通常，強化學習只考慮靜態環境中的固定單一學習主體。相比之下，多主體強化學習（MARL）考慮多個主體如何進行強化學習，而且常常其他主體引入的不平穩性改變了主體的學習行為。在深度強化學習中，重點是在主體之間實現可區分的通信，這使他們能夠合作。幾種方法被提出用於此目的，包括按順序傳遞消息，使用雙向通道（從而提供更少信號丟失的排序）和使用全面頻道。增加通信渠道是在複雜場景中應用於MARL的自然策略，這並不排除對主體的合作關係或競爭關係進行建模的通常做法。多主體領域中的其他相關重要工作還包括對博弈論順序決策過程中學習效果的研究。

F 記憶與注意

作為深度強化學習最早的工作之一，DQN已孵化出了許多擴展。其中一個擴展是，將DQN轉化為RNN，這樣可以使網路更好地通過長時間整合信息來處理POMDP周期。像遞歸過濾器一樣，循環性連接提供了對時間上遠隔的先天觀察進行條件行動的有效手段。使用其隱藏單元之間的循環連接，由Hausknecht和Stone建立的深度循環Q網路（DRQN）能夠成功地在Pong 遊戲中推測球的速度，即使遊戲的幀被隨機地消隱。

通過向DRQN引入注意，還可以獲得進一步提高。這種技術能在循環單元和更底層的層級之間添加額外連接。而這將帶來深度注意循環Q網路（DARQN）。注意使網路能夠選擇下一步向哪一部分輸入關注，並使得DARQN在那些需要長時間規劃的遊戲中擊敗DQN和DRQN。但是，在那些需要快速反應的遊戲中，DQN優於DRQN 和 DARQN, 因為這時 Q取值波動得更快。

為了進一步促進循環過程，可以向DQN添加一個可微記憶，這允許它更多地在其「工作記憶」中靈活處理信息。在傳統RNN中，循環單元既負責執行計算又負責存儲信息。可微記憶將增加只用於存儲的大型矩陣，並且可以使用可微讀取訪問和寫入操作，這類似計算機的內存。Oh 等人通過基於鍵值的記憶Q-network（MQN）構建了一個可以解決簡單迷宮的主體。該系統建在Minecraft遊戲上，在遊戲的每一集中，正確的目標由附近顯示的彩色塊表示。MQN，尤其是更複雜的變體，在表現上顯著優於DQN和DRQN的基準，這表明將記憶存儲解耦出來的重要性。

在更近的工作中，記憶被賦予了2D結構，類似於空間圖。這提示在未來的研究中，更專門的內存結構將用於開發解決具體問題，如2D或3D導航。可微存儲器也可以用於逼近哈希表，允許DRL演算法來存儲和檢索成功經驗，以促進快速學習。

請注意，RNN並不局限於基於價值函數的方法。它已成功應用於策略搜索和AC方法之中。

G遷移學習

即使深度強化學習演算法可以處理高維數據輸入，直接訓練強化學習主體來對現實世界的視覺輸入進行學習仍然是不可行的，因為這需要海量的樣本。為了加快深度強化學習，可以利用以前從相關任務中獲得的知識，它表現為幾種形式：轉移學習，多任務學習和課程學習等等。

研究者對從一個任務到另一個任務的遷移學習有很大的興趣。特別是，在有視覺渲染的物理模擬器中進行訓練，然後在現實世界中對模型進行微調，這種方式格外引起興趣。通過在模擬和實際階段直接使用相同的網路，可以簡單地實現這種遷移。也可以用更複雜的訓練程序，在遷移時增加額外的層，以解決神經網路對舊知識的」災難性遺忘「難題。其他方法涉及學習模擬與真實視覺之間的對齊，甚至兩個不同的攝像機視點之間的對齊。

另一種形式的遷移學習可以幫助RL實現多任務訓練。特別是在神經網路中，監督和無監督學習任務可以幫助訓練特徵，RL主體可以使用這些特徵，從而使得優化RL目標更容易實現。例如，在基於A3C的「無人監督的強化和輔助學習」主體中，附加了「像素控制」（最大限度地改變像素輸入）、獎勵預測和來自經驗回放的價值函數學習。同時，Mirowski等人的基於A3C的主體還在額外的訓練中構建了給定RGB輸入下的深度圖，以幫助它學習導航3D環境。

在研究中，Mirowski等展示了，預測深度比接收深度更適合作為額外輸入，這進一步支持了用輔助任務引導梯度變化，提升DRL的想法。轉移學習也可用於構建更多的參數有效的策略。在機器學習的學生教師範式中，可以先訓練更強大「老師」模型，然後用它來指導一個較弱的學生模型。

最初這隻應用於監督學習，這種神經網路知識轉移技術被稱為蒸餾技術。現在，這種技術已經既被用於將大型DQN學習的策略轉移到較小的DQN，也被用於將從幾個DQNs中學習的策略集中到單一的DQN 。這是非常重要的一步，如果我們希望構建出能完成廣泛範圍任務的主體的話。因為，直接同時對多個強化學習目標進行訓練可能是不可行的。

了解更多：A Brief Survey of Deep Reinforcement Learning

https://arxiv.org/pdf/1708.05866v1.pdf

【號外】新智元正在進行新一輪招聘，飛往智能宇宙的最美飛船，還有N個座位

點擊閱讀原文可查看職位詳情，期待你的加入~

點擊展開全文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※KDD2018主席熊輝教授：數據挖掘與深度學習結合新趨勢
※盤點影響計算機視覺Top100論文從ResNet到AlexNet
※「破解人類識別文字之謎」對圖像中的字母進行無監督學習
※美中印AI三巨頭機器人實力對比：中國能否保住第二？
※破解人類識別文字之謎，對圖像中的字母進行無監督學習

TAG:新智元 |

您可能感興趣

※DeepMind元梯度強化學習演算法，提高大規模深度強化學習應用的性能
※OpenAI Baselines 更新，新增 HER 強化學習演算法
※UC Berkeley課程CS 294：深度強化學習
※使用Caicloud TaaS 平台落地深度學習演算法實戰
※深度強化學習-Policy Gradient基本實現
※Machine Learning：十大機器學習演算法
※Roofline Model 與深度學習模型的性能分析
※DeepMind用強化學習探索大腦多巴胺對學習的作用
※通過 Q-learning 深入理解強化學習
※第55期：Python機器學習實踐指南、Tensorflow 實戰Google深度學習框架
※深度學習基礎-TensorFlow 概覽
※深度學習——Bhiksha Raj 主講
※真實全景圖像強化學習 AI 平台——Matterport3DSimulator
※Google 搜索架構技術總監李雙峰：基於TensorFlow的大規模深度學習系統
※DeepMind提出元梯度強化學習演算法，顯著提高大規模深度強化學習應用的性能
※多Agent 學習 AI 炸彈人遊戲挑戰賽——Playground
※Yoshua Bengio團隊基於深度強化學習打造聊天機器人MILABOT
※DeepMind推出分散式深度強化學習架構IMPALA，讓一個Agent學會多種技能
※基於 Unity/OpenAI Gym/PyTorch/TF 的深度強化學習研究框架
※OpenAI發布可擴展的元學習演算法Reptile