DeepMind 綜述深度強化學習：智能體和人類相似度竟然如此高！

新聞 05-28

雷鋒網AI科技評論按：近年來，深度強化學習（Deep reinforcement learning）方法在人工智慧方面取得了矚目的成就，從 Atari 遊戲、到圍棋、再到無限制撲克等領域，AI 的表現都大大超越了專業選手，這一進展引起了眾多認知科學家的關注。不過 Deep RL 需要大量的訓練數據，人們開始質疑深度強化學習過於依賴樣本，導致效率低下，無法與人類學習的合理模型相匹配。

但在本文中，DeepMind 研究人員將利用最近開發的技術來駁回這些質疑聲，這些技術不僅允許深度強化學習更靈活地運行，而且還使其更高效地解決問題。

第一代 Deep RL：強大但緩慢

在過去的幾年裡，人工智慧研究取得了革命性的進展。神經網路和「深度學習」的復興推動了圖像識別、自然語言處理等許多領域的突破。這些發展引起了越來越多心理學家、心理語言學家和神經學家的興趣，他們對 AI 發展是否意味著關於人類認知和腦功能的新假設展現出了充分的好奇心。

從這個角度來講，AI 中最具吸引力的領域就是深度強化學習。因為它將神經網路建模與強化學習充分的結合起來，形成了一套從獎懲中學習而非從準確教學中學習的方法。數幾十年來，深度強化學習更多的是理論層面的研究，直到近五年來，在電子遊戲、撲克、多人遊戲以及一些複雜的棋盤遊戲中，表現出超人類的技術水平，一躍成為人工智慧研究最激烈的領域之一。

除 AI 領域外，深度強化學習似乎和心理學與神經科學也有著緊密的聯繫。其驅動學習的機制最初是受動物調節作用的啟發，並且被認為和基於獎勵學習（以多巴胺為中心）的神經機制密切相關。同時，深度強化學習利用神經網路來學習支持泛化和遷移的強大表徵，這正和生物大腦的核心相契合。

而正是這些關聯，使那些對人類和動物的行為與神經科學學習感興趣的研究人員，產生了豐富的聯想與假設，從而開始將目光轉向了深度強化學習。這樣的結果，也對那些關於一代 Deep RL 發負面評論發出了警告。

看似深度強化學習和人類的學習方式完全不同：有人認為，這種差異在於二者的樣本效率（學習系統達到任何選定目標性能水平所需的數據量）。基於這一標準，一代 Deep RL 確實與人類學習者有著極大的不同。為了在 Atari 遊戲或國際象棋等任務中獲得專業人士級表現，深度強化學習系統需要比人類多幾個數量級的訓練數據。

這樣的評論確實適用於自2013年開始見於報道的一代 Deep RL 。然而，在那之後的短時間內，Deep RL 的研究發生了重要的創新，其樣本效率得到顯著提升。這些方法大大降低了深度強化學習對訓練數據量的要求，也就相當於讓深度強化學習變得快多了。這些計算技術的出現使 Deep RL 成為人類學習建模的候選模型，也是心理學和神經科學相關觀點的重要啟蒙。

以當下的視角，DeepMind 研究人員在這篇綜述中探究了兩種關鍵的 Deep RL 方法來解決樣本效率問題：Episodic Deep RL和 Meta-RL 。他們檢驗這些技術如何加快 Deep RL 的效率，同時也探索了 Deep RL 對心理學和神經科學的潛在影響。

Deep RL?緩慢的原因

理解能夠加速 Deep RL 的技術突破的關鍵點就是找到 Deep RL 在實際運行中緩慢的原因，DeepMind 描述了樣本效率低下的兩個主要原因。

第一個原因是增量式的參數更新。

一代 Deep RL 方法採用梯度下降來映射從輸入環境到輸出動作之間的關聯性。正如人工智慧和心理學的廣泛討論所得，在該形式下的學習過程，所做的調整必須很小，才能最大限度地泛化並避免覆蓋早期的學習成果（這種影響有時會被引用『災難性干擾』）。

第二個原因是弱歸納偏倚。

任何學習過程都必然需要在偏倚和多樣性之間作出取捨。學習過程對學習模式的初始假設越強（即學習過程的初始歸納偏倚越強），學習完成所需的數據就越少（假設初始歸納偏差與數據中的相符）。而具有弱歸納偏差的學習過程雖然能夠習得更廣泛的模式（即更佳的多樣性），但代價是降低樣本效率。

所以，強歸納偏倚可以實現快速學習，在選取輸入數據時僅考慮範圍窄的假設學習系統，可以比弱歸納偏倚的系統更快地得到正確的假設（假設落入該狹窄的初始範圍內）。更重要的是，通用神經網路是極低偏倚的學習系統，它們有許多參數（連接權重），並且可以用來適應各種數據。

這兩個原因共同解釋了一代 Deep RL?緩慢的原因。而隨後的研究表明，這兩個原因都可以優化從而允許?Deep RL?以樣本效率更高的方式進行。

Episodic deep RL：通過情景記憶進行快速學習

如果增量式的參數更新是深度強化學習緩慢的一個原因，那麼減少增量更新則可以使其變快。

但單純增加學習率來控制梯度下降優化，則會導致災難性干擾的問題。所以，最近研究表明可以利用另一種方法實現目標：保留過去事件的明確記錄，並直接將此記錄用作制定新決策的參考點。這個被稱為Episodic RL 的觀點與機器學習中的「非參數」方法相似，類似於心理學理論中的「基於實例」或「基於樣本」。

當遇到新情景並且必須決定採取何種行動時，系統會將當前情景的內部表示與過去情景的存儲表示進行對比，根據與當前最相似的過去情況，然後選擇與最高值相關聯的動作。當內部狀態表示由多層神經網路計算時，我們將得到的演算法稱為 Episodic deep RL 。

Episodic deep RL 使用 Episodic?memory 來估計動作和狀態的值。該方法的成功取決於狀態表示相似性的計算。在後續研究中，Pritzel等人表明，通過使用梯度下降學習逐步形成這些狀態表示可以改善 deep RL 的性能。

與標準增量法不同，Episodic deep RL 可以及時利用之前情景事件所獲得的信息來指導行為。雖然 Episodic deep RL 學習更快速，但歸根結底，它仍然依賴於緩慢的增量學習。這些狀態表示本身是通過增量學習而得，使用了相同類型的增量參數更新，才形成了標準深度強化學習的主幹網路。最終，通過這種較慢的學習形式實現了快速的 Episodic deep RL ，這表示快速學習的基礎正源於緩慢學習。「快速學習的基礎是緩慢學習」並不是僅僅在強化學習里有效的巧合。實際上在下文中，DeepMind 進一步說明了這是在心理學和神經科學領域也廣泛有效的基礎法則。

Meta-RL：通過學習如何學習來加速 Deep RL

如前所述，一代 Deep RL 緩慢的第二個關鍵原因是弱歸納偏倚。

正如在偏倚和多樣性的取捨概念中所形式化的，快速學習要求學習者使用一組合理大小的假設（關於它將面臨的模式結構），假設設置越窄，學習速度就越快。然而一個狹義的假設集只在它包含正確的假設的情況下，才會提高學習速率。因此，新的問題就是：學習者如何獲得應該採用的歸納偏倚？

顯而易見的答案就是：借鑒過去的經驗，這也是人類在日常生活中會採用的方法。例如，有一個學習使用新智能手機的任務，在這種情況下，通常我們會將過去使用智能機和其他相關設備的經驗，用來幫助我們學習。

利用過去的經驗加速新學習的方式，在機器學習中被稱為元學習。這個想法源於心理學，它也被稱為「學習如何學習」。在第一篇使用「元學習」的論文中，Harlow 提出了一個實驗，可以巧妙地捕捉它的原理。

實驗中，猴子被提供了兩個不熟悉的物體，允許抓住其中一個，並在下面放置食物獎勵或空井。然後將物體再次放置在動物之前，可能左右顛倒，並且重複該過程總共六輪；然後換兩個新的、不熟悉的物體，又進行了六次試驗；接著是另一對物體，依此類推……

在眾多物體對中，猴子會發現一個簡單的規則總是存在：無論物品左右位置如何，只有一個能產生食物，而另一個物體不能。當呈現一對新的物體時，猴子能夠一次性學習，這就是一個簡單卻形象的「學習如何學習」的例子。

而 AI 通過利用元學習來加速深度學習，這個總體思路已經以各種方式實現。其中，Wang 和 Duan 等研究者提出了一種與神經科學和心理學尤為相關的方法。在這方法中，循環神經網路可以在一系列相互關聯的強化學習任務上進行訓練。因為網路中的權重調整非常緩慢，所以它們可以得到不同任務中通用內容，但不能快速更改以支持任何單個任務的解決方案。

在這種情況下，循環神經網路的活動動態則可以實現他們獨立的強化學習演算法，該演算法基於過去任務產生的知識「負責」快速解決每個新任務。實際上，一個強化學習演算法產生另一個強化學習演算法，因此稱為「元強化學習演算法 meta-RL」。

與 Episodic deep RL 一樣，Meta-RL 再次涉及快速和慢速學習之間的密切聯繫。循環神經網路的連接在各個任務之間緩慢學習與更新，讓跨任務的一般原則能「內置」到循環網路的動態中，由此產生的網路動態實現了一種新的學習演算法，則可以實現快速解決新問題。這一方法被慢速學習賦予了有用的歸納偏倚，再一次證明，快速學習源於慢學習並且通過慢學習實現。

Episodic Meta-RL

值得注意的是，以上兩種技術並不相互排斥。近期的相關研究探索了一種整合 Episodic deep RL 和 Meta-RL 的方法，使它們實現效益互補，從而得到了 Episodic meta-RL。其中，元學習發生在循環神經網路中，而 Episodic memory 系統則疊加在這之上，其作用是復原該循環神經網路中的活動模式。

與 Episodic deep RL 一樣，Episodic memory 系統對一組過去事件進行整合，使其可根據當前情景來查詢這些事件。但是，Episodic meta-RL 不是將情景和估值直接連接起來，而是將情景與來自循環神經網路內部或隱藏單元的存儲活動模式連接起來。這些模式很重要，因為它們通過 Meta-RL 總結得到智能體與各個任務交互中學到的東西。

在 Episodic meta-RL 中，當智能體處於類似於過去遇到的情況時，它會先恢復之前的隱藏活動，允許先前學到的信息立直接作用於當前策略。實際上，Episodic memory 允許系統識別先前遇到的任務，然後檢索已存儲的解決方案。

通過老虎機選擇任務和導航任務的模擬工作，Ritter 等研究者證實了 Episodic Meta-RL 和原始 Meta-RL 一樣，通過學習強大的歸納偏置，實現快速解決新任務。核心關鍵是，當處理之前發生過的任務時，Episodic Meta-RL 會立即檢索並復原之前已有的解決方案，省去重新檢索過程；而在首次處理新任務時，系統則充分利用 Meta-RL 的快速性；第二次和之後的處理中，它則受益於 Episodic control 所賦予的一次性學習功能。

對神經科學和心理學的啟示

正如在一開始所討論到，樣本效率低下被作為質疑深度強化學習與人類和其他動物學習的相關性的理由。從心理學和神經科學的角度來看，Episodic deep RL 和 Meta-RL 的一個重要含義正是證實了 Deep RL 也可以實現快速處理，從而駁回了這一質疑。這樣的結果證實了深度強化學習作為人類和動物學習的潛在模型是可行的。除此之外，Episodic deep RL 和 Meta-RL 的細節也引出了心理學和神經科學中有趣的新假設。

從 Episodic deep RL 中，我們會發現它與經典人類記憶模型之間的有趣聯繫。它為基於實例的處理如何來促進獎勵驅動學習提供了合理解釋。有趣的是，近期關於動物和人類強化學習的研究越來越多強調了 Episodic memory 的潛在貢獻，越來越多的證據表明，狀態和行為價值的估計是基於對過去特定行動觀察的記憶檢索。Episodic deep RL 提供了一個新的思維角度，用於探究這個一般原則如何擴展到多樣的、高維的順序學習問題上；更讓人驚訝的是，它突出了表徵學習和度量學習在基於 Episodic deep RL 之上，可能發揮的重要作用。這表明對於人和動物中快速片段強化學習與較慢學習過程的相互作用及緊密聯繫的研究是有成效的。

再談到 Meta-RL，該演算法對心理學和神經科學也有潛在的影響。實際上，Wang 等研究者提出了元強化學習的元素到神經網路結構和功能的直接映射。具體來說，他們提出多巴胺驅動的突觸緩慢變化可用於調節前額葉迴路的活動，使後者實現獨立的學習過程。通過一系列的計算機模擬，Wang 等研究者以 Meta-RL 方式去證明了行為和神經生理學文獻中的各種實證研究結果。

Wang 等研究者提出，Meta-RL 可以模擬生物大腦進行學習。他們認為以前額皮層（PFC）為中心的複位神經網路實現了學習的內循環，並且這種內循環演算法由多巴胺驅動的突觸可塑的外環慢慢形成。

在內循環中，前額皮層是快速學習的核心，其中的神經元用於支持這種學習的變數。例如，Tsutsui 等研究者從覓食任務期間的靈長類動物背外側前額皮層（dlPFC）記錄，當環境變數不斷變化時，他們發現個體神經元不僅編碼當前選項的值，而且還編碼先前採取的行動，先前的獎勵以及先前行動與先前獎勵的相互作用。這些是在此任務中實施有效學習政策的關鍵變數。

而在外循環中。中腦多巴胺神經元被認為攜帶時間差異的獎賞預測誤差（RPE）信號。在這個標準理論中，多巴胺驅動對皮層 - 紋狀體突觸的增量調整，這些調整使動物更容易重複強化行為。這種無模型學習系統通常被視為生活在大多數不同腦區的基於模型的系統的補充。

同樣將 Episodic meta-RL 與心理學和神經科學聯繫起來。該演算法涉及的複位機制直接受神經科學數據的啟發，表明 Episodic memory 可用於複位大腦皮層的激活模式，包括支持工作記憶的區域。Ritter 等研究者展示了如何通過強化學習的優化配置，從而系統複位先前遇到的任務信息狀態。除了從神經科學中汲取的最初靈感外，這項工作還通過為人類學習中最近報道的情節控制和基於模型的控制之間的相互作用提供簡約解釋而與生物學相關聯。在更廣泛的層面上，Ritter 等研究者報道的工作舉例說明了元學習如何在多個記憶系統上運行，緩慢調整他們的交互，以便他們共同快速學習。

快速和慢速 RL：更深遠的意義

在討論 Episodic RL 和 Meta-RL 時，我們強調了「慢」學習在實現快速、樣本有效學習方面的作用。在 Meta-RL 中，緩慢的、基於權重的學習，用於建立歸納偏倚來指導推理，從而快速去適應新任務。而在? Episodic RL 中，演算法則依賴於對情景或狀態之間相似性的判斷。緩慢的學習形成了內部表示的方式，從而建立了一系列有關於狀態之間聯繫的歸納偏倚。

進一步觀察 Episodic RL ，我們可以發現學習架構中本身就存在歸納偏倚。Episodic RL 獨特之處則是：假設一種簡單原則，類似的狀態通常產生類似的動作。這種歸納偏差不是用於學習，而是連接到定義 Episodic RL 的學習系統結構中。在當前的 AI 中，這是「架構」或「演算法偏倚」，與「學習偏倚」有明顯的區別。

目前人工智慧研究主要集中在尋找有用的歸納偏倚以加速學習，通過學習、手工設計架構或演算法偏倚來實現，而最後一種方法則是當下人工智慧神經網路興起的主要原因。其中，卷積神經網路提供了強有力的支持，它構建了一種與圖像識別中的平移不變性相關的特殊結構偏倚。

從高層次來看，這些發展與心理學中一些長期存在的問題相似。如你所見，歸納偏倚可能通過學習獲得的想法最初源於心理學，並且一直是心理學研究的間歇性話題。而神經網路中的元學習為學習如何學習的機制和動態提供了新的條件，尤其是在 RL 中。

在心理學方面，尤其是發展心理學，也長期以來一直在探索某些歸納偏倚「內置」的可能性，即內在特性。然而，結構偏差以及神經網路學習演算法中的內置偏倚的原理概念被考慮得較少，當前的深度學習和深度強化學習的方法則為其提供了一個工具，有助於進一步探索。

值得關注的是，雖然人工智慧工作在通過學習獲得的歸納偏倚和手工「連接」的偏見之間產生了明顯的區別，但從生物學來講，可以獲得更普遍、更統一的觀點。具體而言，人們可以將架構和演算法偏倚視為由進化驅動的不同學習過程產生的。這裡的進化，是一種「緩慢」的學習過程，逐漸形成架構和演算法偏倚，從而加快終身學習速度。

因此，元學習不僅在一個生命周期內發揮作用，而且在進化過程也發揮作用。有趣的是，這種觀點意味著進化不會選擇真正的「通用」學習演算法，而是選擇大腦在特定環境下的進化規律作為演算法。在這樣的情況下，AI 的最新發展再次證明其對於神經科學和心理學的探索具有實際意義。無論是專註於手工工程還是進化，AI 在構架和演算法偏倚方面的工作為我們提供了一個新的思路——用於對進化是如何形成神經系統從而支持有效學習做進一步研究。人工智慧研究提出的可能性包括對神經網路連接初始模式的限制；突觸學習規則；和鼓勵出現解離或組合表徵的因素和內部預測模型。

從心理學，神經科學，進化和發展研究的角度來看，這些研究也繪製出了這樣的藍圖：學習在許多時間尺度上同時運行，從幾千毫秒到幾毫秒之間，隨著較慢的時間尺度得到偏差，使其在這之上實現更快的學習，並且所有這些都在進化、發展並且遵循著受環境結構強烈影響的軌跡。從這看來，進化形成了嵌入歸納偏倚的架構和演算法；然後這些形成終身學習，它本身就會根據經驗發展出進一步的歸納偏倚。

雷鋒網AI 科技評論?雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※Intel 10 nm 來了！第十代酷睿系列採用全新架構，AI 成最大亮點

TAG:雷鋒網 |