DeepMind提出關係性深度強化學習：在星際爭霸2任務中獲得最優水平

知識 06-08

選自arXiv

作者：Vinicius Zambaldi等

機器之心編譯

參與：思源、張倩、王淑婷

自去年 7 月與暴雪共同開放人工智慧研究環境 SC2LE 以來，DeepMind 一直沒有發表有關星際爭霸人工智慧的進一步研究。近日，這家公司提出了一種「關係性深度強化學習」方法，並在星際爭霸 2 中進行了測試。

在星際爭霸 II 學習環境中，DeepMind 的智能體在六個小遊戲中達到了當前最優水平，且在四個遊戲中的表現超越了大師級人類玩家。這種新型強化學習可以通過結構化感知和關係推理提高常規方法的效率、泛化能力和可解釋性。

學習良好的內部表徵以告知智能體策略的能力在一定程度上驅動了深度強化學習（RL）[1, 2, 3] 的最新進展。不幸的是，深度學習模型仍然具有重大缺陷，如採樣效率低以及往往不能泛化至任務中看似微小的變化 [4, 5, 6, 7]。這些缺陷表明，具有較強能力的深度強化學習模型往往對其所訓練的大量數據過度擬合，因此無法理解它們試圖解決的問題的抽象性、可解釋性和可概括性。

在這裡，我們通過利用 20 多年前 RL 文獻中的見解在關係 RL（RRL，[ 8，9 )）下來改進深度 RL 體系結構。RRL 主張使用關係狀態（和動作）空間和策略表徵，將關係學習（或歸納邏輯編程）的泛化能力與強化學習相結合。我們提出了一種將這些優勢和深度學習所提供的學習能力相結合的方法。這種方法提倡學習和重複使用的以實體和關係為中心的函數 [10、11、12] 來隱含地推理 [13] 的關係表徵。

我們的成果如下：（1）我們創建並分析了一個名為「方塊世界」的 RL 任務，該任務以關係推理為明確目標，並證明了具有利用基於注意力的非局部計算來生成關係表徵能力的智能體 [14] 與不具備這種能力的智能體相比，表現出有趣的泛化行為；（2）我們將這種智能體應用於一個難題——「星際爭霸 II」小遊戲 [15]——並在 6 個小遊戲上達到了當前最優水平。

圖 1：「方塊世界」和「星際爭霸 II」任務要求對實體及其關係進行推理。

關係性強化學習

RRL 背後的核心思想即通過使用一階（或關係）語言 [8, 9, 17, 18] 表示狀態、動作和策略，將強化學習與關係學習或歸納邏輯編程 [16] 結合起來。從命題轉向關係表徵有利於目標、狀態和動作的泛化，並利用早期學習階段中獲得的知識。此外，關係語言還有利於使用背景知識，而背景知識同時也可以通過與學習問題相關的邏輯事實和規則提供。

例如在「方塊世界」的遊戲中，當指定背景知識時，參與者可以使用述語 above(S, A, B) 表示狀態 S 中方塊 A 在方塊 B 的上面。這種述語可以用於方塊 C 和 D 以及其它目標的學習中。表徵性語言、背景和假設形成了歸納性偏置，它能引導並限制智能體搜索良好的策略。語言（或聲明性）偏置決定了概念的表現方式。

神經網路傳統上就與屬性-值、命題性以及強化學習方法 [19] 聯繫在一起。現在，研究者們將 RRL 的核心思想轉化為深度 RL 智能體中結構化指定的歸納偏置，他們使用神經網路模型在結構化的情景表徵（實體集合）上執行運算，並通過迭代的方式進行關係推理。其中實體對應著圖像的局部區域，且智能體將學習注意關鍵對象並計算他們成對和更高階的交互。

架構

圖 2：「方塊世界」智能體架構和 Multi-head 點積注意力。E 是一個矩陣，編譯視覺前端產生的實體；f_θ是多層感知器，用於平行 MHDPA 步驟 A 的每行輸出，並且產生更新的實體 E。

實驗和結果

方塊世界

「方塊世界」是一個感知簡單但組合複雜的環境，需要抽象的關係推理和規劃。它由一個 12×12 像素的空間組成，鑰匙和方塊隨意散落。這個空間還包含一個智能體，由一個暗灰色像素表示，它可以在四個方向上移動：上、下、左、右（圖 1）。

圖 3：「方塊世界」：觀察值示例（左），決定實現目標合適路徑的基本圖結構及任意干擾分支（中間）和訓練曲線（右）。

圖 4：注意力權重可視化。（a）單樣本水平的基本圖；（b）該水平上的分析結果，使用解決路徑（1-5）中的每個實體作為注意力源。箭頭指向源正注意的實體，箭頭的透明度由相應的注意力權重決定。

圖 5：「方塊世界」中的泛化。零樣本遷移到需要的水平：（a）打開較長的盒子序列；（b）使用訓練期間沒用過的鎖-鑰組合。

星際爭霸 II 小遊戲

「星際爭霸 II」是一種頗受歡迎的電子遊戲，為強化學習出了一道棘手的難題。該遊戲中有多個智能體，每個玩家控制大量（數百個）需要交互、合作的單位（見圖 1）。

表 1：「星際爭霸 II」迷你型遊戲中使用全動作組的平均得分。「」表示高於大師級人類玩家的分數。小遊戲：（1）移動到信標位置；（2）收集晶礦碎片；( 3 ) 發現並打敗小狗；（4）打敗蟑螂；（5）打敗小狗和毒爆蟲；（6）收集晶礦和氣礦；（7）製造機槍兵。

論文：Relational Deep Reinforcement Learning

論文鏈接：https://arxiv.org/abs/1806.01830

摘要：在本文中，我們介紹了一種深度強化學習方法，它可以通過結構化感知和關係推理提高常規方法的效率、泛化能力和可解釋性。該方法使用自注意力來迭代地推理場景中實體之間的關係並指導 model-free 策略。實驗結果表明，在一項名為「方塊世界」的導航、規劃新任務中，智能體找到了可解釋的解決方案，並且在樣本複雜性、泛化至比訓練期間更複雜場景的能力方面提高了基線水平。在星際爭霸 II 學習環境中，智能體在六個小遊戲中達到了當前最優水平——在四個遊戲中的表現超越了大師級人類玩家。通過考慮架構化歸納偏置，我們的研究為解決深度強化學習中的重要、棘手的問題開闢了新的方向。

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※DeepMind元梯度強化學習演算法，提高大規模深度強化學習應用的性能

TAG:機器之心 |