當前位置:
首頁 > 新聞 > Vicarious詳解新型圖式網路:賦予強化學習泛化能力

Vicarious詳解新型圖式網路:賦予強化學習泛化能力

選自Vicarious

機器之心編譯


近日,人工智慧初創公司 Vicarious 在官網了發表了一篇名為《General Game Playing with Schema Networks》的文章,提出了一種可以進行遊戲泛化的新型網路:圖式網路。該網路可通過訓練學習環境動態,進而泛化到多種遊戲環境之中;同時它還具有概念學習和推理能力,這就克服了深度強化學習的弊端,從而做到像人類一樣重複使用概念。機器之心對該文進行了編譯,原文鏈接請見文末。

深度強化學習(deep reinforcement learning)在遊戲界的成功已經在 AI 界產生了轟動 (Mnih et al., 2015; Mnih et al., 2016; Silver et al., 2016; Van Hasselt et al., 2016)。人工智慧在很多不同的遊戲中的最新得分現在已經超越了人類的水平。但是這些成果又能在多大程度上說明人工智慧已經可以像人類一樣去思考遊戲中的事物呢?

當人類接觸一個新的遊戲時,他們首先要對遊戲進行概念性的理解。假設你第一次接觸一個類似於打磚塊(Breakout)的遊戲(見下文)。通過幾秒或幾十秒的觀察,你已經開始對遊戲有了一定的理解,這是因為你對這個世界有著先驗的認知(prior experience)。你可能會把移動的紅色像素理解為在「牆」上進行「彈跳」的「球」,並且可以識別一個「拍子」來對球進行擊打。你明白拍子是可以用來擊球的。你會觀察到當球碰擊到頂部的「磚」時,那些「磚」就會消失。你開始的時候甚至都沒有去關注得分的情況,但是後來你開始注意到打碎一個「磚」你就可以得到一定的分數,而且如果你讓「球」出現在「拍子」的下方,你就會丟掉一定分數;你已經發現了這個遊戲的目的。僅僅通過對遊戲進行短時間的簡單觀察,你就很有可能會理解遊戲的相關概念。

從因果(cause and effect)的角度來理解這個世界是人類智力的重要標誌之一。這種能力可以讓我們通過對我們已有的知識信息進行「遷移」(transferring),從而快速地理解新的情境,比如一個新的電子遊戲。

那麼隨之而來的問題就是:深度強化學習智能體(deep reinforcement learning agents)會對概念和因果進行理解嗎?

Vicarious詳解新型圖式網路:賦予強化學習泛化能力

一個在打磚塊的 Vicarious 標準版本上用先進的 Asynchronous Advantage Actor-Critic(A3C)方法來訓練的深度強化學習智能體

深度強化學習贏了遊戲卻錯失了要點

我們用先進的 Asynchronous Advantage Actor-Critic (A3C) (Mnih et al., 2016) 方法去訓練一個深度強化學習智能體(deep RL agent),讓它去玩一個典型的打磚塊遊戲,它可以玩的非常好。一個能夠玩打磚塊標準遊戲的智能體應該可以輕易地根據遊戲中的小變動進行調整,這些變動包括更高的拍子(paddle)或一堵額外的牆 (Rusu et al., 2016)。

Vicarious詳解新型圖式網路:賦予強化學習泛化能力

上圖圖展示了相同的 A3C 智能體可以在玩過一些簡單的變體遊戲之後,在原始遊戲中也拿到專家級的分數。如果 A3C 智能體已經學會了對因果進行概念性的理解,那麼根據遊戲中的新局勢進行調整對智能體來說應該不是問題。

很明顯深度學習智能體無法去應對這些小的變化,因為 A3C 和其它的深度學習智能體是通過輸入像素到動作(the input pixels to an action)的映射模式來運行的,比如向左或向右移動。智能體從一系列輸入像素回歸到特定動作,從大量的試驗和誤差中進行學習。A3C 智能體會對一個特定策略進行「過擬合」(overfit),去開發訓練過的遊戲版本中的特定數據。但是它沒有對遊戲的動態變化和規則進行概念性的理解。經常被理解為「智能」的「深度強化學習表現形式」,其實就是簡單的基於弱提示的「刺激與反應」(stimulus-response)間的映射關係。

圖式網路

在即將到來的 2017 機器學習國際會議(ICML)中,我們將會介紹一種圖式網路(Schema Network),這是一種基於模型的強化學習方法,它展現出了一些強大的泛化能力,我們相信這是真正和人類相類似的通用智能的關鍵所在。圖式網路是一種生成圖模型,它可以對未來和因果緣由(reason about cause and effect)進行模擬模擬,並且對如何能得到長遠的獎勵(distant rewards)進行規劃。在這篇 ICML 論文中,我們描述了圖式網路怎樣直接從數據中進行學習,並且展示了 zero-shot 泛化能力——例如,僅在基本遊戲類型中進行訓練後就可以在上述打磚塊遊戲的不同變體中獲得高分——在傳統深度強化學習失效的地方進行精確地設置。

我們使用了一個類似於打磚塊的遊戲來展示圖式網路學習概念(concept)的能力,即從一種變體遷移到下一種變體。

圖式網路在其它遊戲中也同樣展現出了可觀的結果。

我們還重點強調了我們測試過的另外兩種遊戲類型:太空侵略者(Space Invaders)和推箱子(Sokoban)。類似於太空侵略者的遊戲包括了很多不同的來源於打磚塊的機制,包括常見的物體創造(bullets)和敵軍行動的固有隨機性。

推箱子與打磚塊和太空侵略者有很大的不同,因為這個遊戲中的可獲得的獎勵非常少,要想得分,需要對對象交互進行更長時間範圍的推理。

圖式網路(Schema Networks)依賴於全部狀態中的輸入,而非原生圖像。本質上,任何可追蹤的圖像特徵可以是一個實體,大多數情況下通常包括物體本身, 它們的邊界和它們的表面。實際上,我們假設視覺系統是一個從圖像中對實體進行檢測和追蹤的系統。從 Atari 電子遊戲中提取實體並不是一個困難的機器視覺問題,而且最近的新成果 (Garnelo et al., 2016) 已經提出了一種使用自編碼器(auto encoder)進行無監督實體構造(unsupervised entity construction)的方法。

通過圖式網路學習可重複使用的概念

在圖式網路中,對世界上的知識信息的學習是通過小圖模型片段 (small graphical model fragments) 進行的,這些片段被稱作圖式(schemas)。這些圖式代表其在實體(名詞)、屬性(形容詞)、實體的交互(動詞)等方面的所學內容 (c.f., Diuk et al., 2008)。在新情景下,適當的知識片段被自動實例化,從而來理解情景並引導智能體取得成功。由於實例化模型可表徵為概率圖模型(PGM/probabilistic graphical model),表徵可以自動處理不確定的證據,並解釋多種原因。而且,規劃問題可被看作成一個推理問題,並通過有效的 PGM 推理演算法解決 (Attias, 2003)。

圖式網路的核心基底是「圖式」。圖式描述了一個實體屬性的未來值是如何依賴於其屬性以及其他可能的鄰近實體的當前值的。每一個圖式可被看作一個預測變數(predictor),這些預測因子自動從數據中學習。例如,基於當前速率以及磚塊(brick)的相對位置,一個圖式可能會判定打磚塊遊戲中球的速率會在下一幀發生改變。另一個圖式也許會預測當人類玩家「左」進行移動且左方有空間時,拍子(paddle)也會隨之左移。圖式還可以預測獎勵、實體創建和刪除。圖式表徵允許進行自動的前向與後向因果推理。

圖式網路完全由一組圖式表徵。結果,模型具備高度的可闡釋性。檢查每一個圖式並立即理解其含義是可能的。由於圖式網路是一個因子圖,可基於當前狀態使用不同的概率推斷演算法預測未來狀態和獎勵。由於模型是生成性的,相同的演算法可用於從目標狀態進行後向推理。我們在 ICML 論文中展示了如何使用 MPBP(Max-Product Belief Propagation)高效地尋找打磚塊遊戲中的可達成獎勵。相同的 MPBP 計劃機制可用於下文所述的推箱子遊戲。前向網路足以應對太空入侵者,我們使用蒙特卡羅樹搜索對它做了展示。

圖式網路中的學習是圖模型中結構學習的一個實例,我們使用了一個基於線性和二進位編程的貪婪演算法(詳見 ICML 論文)。

突破性結果

我們在 ICML 論文中報道稱圖式網路能夠學習打磚塊遊戲的標準版本並很好地泛化到上述的其他遊戲變體中。它們在變體遊戲上的表現如下圖所示:

Vicarious詳解新型圖式網路:賦予強化學習泛化能力

通過學習遊戲的概念性表徵,圖式網路可以推理獎勵機制。在下面這張動圖中,圖式網路通過使用其關於世界的因果模型,演示了如何對很多潛在的未來進行推理:

Vicarious詳解新型圖式網路:賦予強化學習泛化能力

Vicarious詳解新型圖式網路:賦予強化學習泛化能力

太空入侵者

打磚塊與太空入侵者有一些共同的動力學特點,比如玩家的移動和其他遊戲對象相對持續的動量。然而,太空入侵者與打磚塊在很多方面又有著有趣的不同,比如,一個新的「射擊」動作引起了一個只能被玩家創建的子彈實體。遊戲之間的不同並沒有為圖示網路造成理論障礙,但是帶來了相對較小的不多的工程學挑戰:我們已經在學習管道中引入了實體「創建」與「刪除」圖示。此外,我們通過保證可靠地過濾掉噪雜和不可預測的現象而優化了學習。

我們也注意到,在隨機動作很快會得到積極與消極獎勵的意義上,太空入侵者比打磚塊更容易獲得獎勵。我們把這看作一次使用更簡單更快速計劃方法——蒙特卡羅樹搜索(MCTS,其只需要前向推理)——進行實驗的機會。

正如在打磚塊中所做的那樣,我們使用了自己的太空入侵者版本,以允許我們便捷地對遊戲動力學做出小的修繕,比如出於測試 zero-shot 遷移的目的而調整子彈速度,或改變掩體高度。下面是太空入侵者的再實現,它帶有一個通過 MCTS 控制玩家的已訓練的圖式網路。

Vicarious詳解新型圖式網路:賦予強化學習泛化能力

一個在太空入侵者上訓練的圖式網路,玩著相同的遊戲。

超過 30 次嘗試之後,圖示網路在太空入侵者上的得分為 46.5 (σ=6.0),而遊戲的滿分為 50。大致來講,46.5 的得分意味著在超過一半的時間裡演算法的表現堪稱完美。作為參考,隨機策略的得分為 -9.8 (σ=11.6)。

圖式網路真的可以瞄準、射擊外星人並躲過他們的子彈嗎?還是僅僅由於運氣?下面是環境的兩個較小變體,較好地闡明了智能體的「意圖性」。比如,觀察右方的玩家如何避開子彈的火力,尋求掩體的遮護,並適時抓住機會回擊外星人。它的世界模型並不完美——不是所有的子彈都射向外星人——但是對於玩好太空入侵者的變體遊戲,它的預測已經超過需求。

Vicarious詳解新型圖式網路:賦予強化學習泛化能力

一個在太空入侵者上訓練的圖式網路,玩著相同的遊戲。

Vicarious詳解新型圖式網路:賦予強化學習泛化能力

相同的圖式網路玩著一個「雙外星人」變體遊戲。

我們也可以可視化計劃過程以看到智能體在每一個行動之間「思考」了什麼。由於我們使用了 MCTS 而不是基於 MPBP 的計劃演算法,探索模型和可視化下面的計劃看起來並不相同。MPBP 演算法首先找到了可達成的獎勵,接著通過具體目標展開後向推理。相反,MCTS 則是通過明斷地選擇假設性動作和累加已發現的獎勵探索了可能的未來狀態。由於 MCTS 探索了多個可能的未來,我們根據它們的可視化位置的概率來遮蔽目標。

Vicarious詳解新型圖式網路:賦予強化學習泛化能力

玩太空入侵者的圖式網路(彩色)與該遊戲的模擬(白色)相互交替。

從打磚塊到太空入侵者,我們付出了較小的工程學努力就做到了,我們很受鼓舞,相信圖式網路也可以泛化到其他領域內類似於 Atari 的遊戲中。

Vicarious詳解新型圖式網路:賦予強化學習泛化能力

Sokoban

推箱子(Sokoban)是一種解密遊戲,涉及將方塊推到目標位置,如圖所示。這個遊戲非常具有挑戰性,因為它涉及多個步驟的提前考慮。Sokoban 求解器使用域特定信息,可以化解這個遊戲的複雜變化。研究人員在 Sokoban 上的工作並不旨在與其他方式競爭,而是為了表明圖式網路可以在不同的環境中學習遊戲規則並獲得勝利。

Vicarious詳解新型圖式網路:賦予強化學習泛化能力

Sokoban 的目標是將方塊推到目標位置上,在這個遊戲上的成功顯示了新系統在其他更具挑戰性的問題上具有潛力。

我們可以通過改變環境的大小和布局來創造新的 Sokoban 難題。依賴於特定布局的深度 RL 策略並不能推廣到以前未見過的新謎題。讓演算法可以解決全新 Sokoban 問題的唯一方法是真正對於遊戲動態建模,支持前向和反向推理。

我們探究了圖式網路在訓練簡單版本的 Sokoban 遊戲後是否可以推廣到其他變化中。訓練環境如圖所示,其中包含與完整遊戲相同的實體、交互和獎勵機制但訓練速度更快。

Vicarious詳解新型圖式網路:賦予強化學習泛化能力

圖式網路的 Sokoban 訓練數據

在這種環境下訓練的圖式網路可以推廣到其他更大的謎題中,如圖所示。

Vicarious詳解新型圖式網路:賦予強化學習泛化能力

圖式網路可以解決比訓練數據更大、更複雜的 Sokoban 謎題

圖式網路在可以在 Sokoban 上走多遠?我們設計了一個即使對於人類來說也很有挑戰性的 Sokoban 謎題,如圖所示,圖式網路仍然可以解決它。

Vicarious詳解新型圖式網路:賦予強化學習泛化能力

圖式網路破解了更具挑戰性的 Sokoban 問題

討論

端到端訓練和從原始像素中學習的能力通常被認為是深度強化學習的優勢。但是,只有當它們能得到可以泛化的表徵時,這些優勢才是有價值的。值得注意的是,即使是當實體狀態被提取出來並被用作 A3C 的輸入時,它也僅能給其泛化能力帶來略微的改善。在深度強化學習中的端到端訓練可以在一些範圍狹窄的任務上帶來優異的表現,同時也會犧牲泛化性。

那到底內部表徵怎樣的性質才能帶來類似人類的泛化能力,從而可以遷移之前的經驗(Lake et al., 2016)呢?我們相信我們在圖式網路上研究成果為這個問題的答案照亮了方向。圖式網路的模塊性和組合性允許實現更大的靈活性,而且無需重新學習表徵就能適應任務的變化。儘管超出了當前工作的範圍,但圖式網路表徵的幾個方面預計可與用於視覺的一種組合式生成模型互動式的工作,這可以實現有更大任務泛化性的端到端系統。

圖式網路僅僅是這一方向的一小步——還有很多工作要做。如之前描述的一樣,當前成果依賴於從原始圖像中提取實體狀態。演示圖式網路與一個生成視覺系統互動式的工作是一個我們正在積極研究的領域。應對範圍廣泛的變化和隨機動作可能需要表徵、推理和學習演算法上的提升。在街機學習環境(Arcade Learning Environments (Bellemare et al., 2015))中的隨機性被引入了進來,以對抗依賴於暴力記憶(brute force memorization)的智能體的效果。因為圖式網路並不依賴暴力記憶(正如我們通過泛化實驗演示的那樣),所以這個隨機性方面與我們的測試無關,而且我們關注的是模擬非隨機的 Atari 2600 環境,其可以使用我們當前的學習演算法更輕鬆地學習。在存在隨機動作的情況下,有效的學習圖式也是我們一個積極研究的領域。

像打磚塊、太空入侵者和推箱子這樣的遊戲可以用作開發新型人工智慧演算法的環境。至少,遊戲可以為研究者提供快速的反饋信號——一種方法到底有沒有希望用於更加實際的應用。但是,僅僅在遊戲上的結果應當被謹慎對待。對於人工智慧研究而言,一種方法在一種特定遊戲上的得分並不非常重要,更重要的是該方法獲得概念知識(conceptual knowledge)的潛力,這能幫助其泛化到這個遊戲之外的更多應用中。

當前最佳的深度強化學習模型可能能夠在其接受訓練的環境中達到超越人類的水平,但它們無法像人類一樣學到可以重複使用的概念。一些在人類看來對環境的微小改變就可能讓模型陷入困惑,無能為力。相比之下,圖式網路可以學習到它們訓練環境的動態,使得其能泛化到環境的多種變化上。通過這種方式,圖式網路可以學習原因、結果和概念。我們希望我們的成果可以激勵其他人研究思考帶有類似豐富結構的模型,並且將一次性泛化(zero-shot generalization)看作是任何人工智慧系統所需的最重要部分之一。

Vicarious詳解新型圖式網路:賦予強化學習泛化能力

擴展閱讀

  • Probabilistic graphical models, see Jordan 1998 and Koller & Friedman 2009.

  • Deep RL with either full or partial world models, see Watter et al. 2015, Tamar et al. 2016, and Silver et al. 2016b.

  • Approaches to encoding objects and relations into deep neural networks, see Battaglia et al. 2016, Chang et al. 2016, and Garnelo et al. 2016.

  • Transfer learning in RL, see Rusu et al. 2016 and Taylor & Stone 2009.

  • Earlier work that inspired Schema Networks, see Drescher 1991.

參考文章

1. Attias, Hagai. Planning by probabilistic inference. In AISTATS, 2003.

2. Battaglia, Peter, Pascanu, Razvan, Lai, Matthew, Rezende, Danilo Jimenez, et al. Interaction networks for learning about objects, relations and physics. In Advances in Neural Information Processing Systems, pp. 4502–4510, 2016.

3. Bellemare, Marc, Yavar Naddaf, Joel Veness, and Michael Bowling. "The arcade learning environment: An evaluation platform for general agents." In Twenty-Fourth International Joint Conference on Artificial Intelligence. 2015.

4. Chang, Michael B, Ullman, Tomer, Torralba, Antonio, and Tenenbaum, Joshua B. A compositional object-based approach to learning physical dynamics. arXiv preprint arXiv:1612.00341, 2016.

5. Diuk, Carlos, Cohen, Andre, and Littman, Michael L. An object-oriented representation for efficient reinforcement learning. In Proceedings of the 25th International Conference on Machine Learning, pp. 240–247. ACM, 2008.

6. Drescher, Gary L. Made-up minds: a constructivist approach to artificial intelligence. MIT press, 1991.

7. Garnelo, Marta, Arulkumaran, Kai, and Shanahan, Murray. Towards deep symbolic reinforcement learning. arXiv preprint arXiv:1609.05518, 2016.

8. Jordan, Michael Irwin. Learning in graphical models, volume 89. Springer Science & Business Media, 1998.

9. Koller, Daphne and Friedman, Nir. Probabilistic graphical models: principles and techniques. MIT press, 2009.

10. Lake, Brenden M., Tomer D. Ullman, Joshua B. Tenenbaum, and Samuel J. Gershman. "Building machines that learn and think like people." arXiv preprint arXiv:1604.00289 (2016).

11. Mnih, Volodymyr, Kavukcuoglu, Koray, Silver, David, Rusu, Andrei A, Veness, Joel, Bellemare, Marc G, Graves, Alex, Riedmiller, Martin, Fidjeland, Andreas K, Ostrovski, Georg, et al. Human-level control through deep reinforcement learning. Nature, 518(7540):529– 533, 2015.

12. Mnih, Volodymyr, Badia, Adria Puigdomenech, Mirza, Mehdi, Graves, Alex, Lillicrap, Timothy, Harley, Tim, Silver, David, and Kavukcuoglu, Koray. Asynchronous methods for deep reinforcement learning. In Proceedings of The 33rd International Conference on Machine Learning, pp. 1928–1937, 2016.

13. Rusu, Andrei A, Rabinowitz, Neil C, Desjardins, Guillaume, Soyer, Hubert, Kirkpatrick, James, Kavukcuoglu, Koray, Pascanu, Razvan, and Hadsell, Raia. Progresive neural networks. arXiv preprint arXiv:1606.04671, 2016.

14. Silver, David, Huang, Aja, Maddison, Chris J, Guez, Arthur, Sifre, Laurent, Van Den Driessche, George, Schrittwieser, Julian, Antonoglou, Ioannis, Panneershelvam, Veda, Lanctot, Marc, et al. Mastering the game of go with deep neural networks and tree search. Nature, 529(7587):484–489, 2016a.

15. Silver, David, van Hasselt, Hado, Hessel, Matteo, Schaul, Tom, Guez, Arthur, Harley, Tim, Dulac-Arnold, Gabriel, Reichert, David, Rabinowitz, Neil, Barreto, Andre, et al. The predictron: End-to-end learning and planning. arXiv preprint arXiv:1612.08810, 2016b.

16. Tamar, Aviv, Levine, Sergey, Abbeel, Pieter, WU, YI, and Thomas, Garrett. Value iteration networks. In Advances in Neural Information Processing Systems, pp. 2146– 2154, 2016.

17. Taylor, Matthew E and Stone, Peter. Transfer learning for reinforcement learning domains: A survey. Journal of Machine Learning Research, 10(Jul):1633–1685, 2009.

18. Van Hasselt, Hado, Guez, Arthur, and Silver, David. Deep reinforcement learning with double q-learning. In AAAI, pp. 2094–2100, 2016.

19. Watter, Manuel, Springenberg, Jost, Boedecker, Joschka, and Riedmiller, Martin. Embed to control: A locally linear latent dynamics model for control from raw images. In Advances in Neural Information Processing Systems, pp. 2746–2754, 2015.

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

Facebook開源基於強化學習的端到端談判AI
微軟全球資深副總裁王永東:人工智慧一面是智能,另一面一定要接近於人
機器翻譯新突破:谷歌實現完全基於attention的翻譯架構
OpenAI發布全新研究:根據人類反饋進行強化學習
微軟全球資深副總裁王永東:人工智慧一面是智能,另一面要接近人

TAG:機器之心 |

您可能感興趣

走近 | Manish Arora 賦予時裝更高的精神文化
esee models X May Hsu | 以Logo重新賦予其形
虎青 重點回顧:Daisy Harris Burland 把廢物賦予新生命
塑造高性能越野性格 APR賦予Volkswagen Atlas 350匹強勁實力
Hiba Schahbaz:為古典藝術賦予更多色彩和女性角色
ARtGlass藉助AR賦予文化遺迹生機,區塊鏈遊戲《Etheremon》接入VR
首位華裔高訂設計總監Yiqing Yin,賦予歷史品牌Paul Poiret 重生意義與價值
Larte Design 賦予 Maserati Levante 高達17件碳纖維套件!
Eric Pillot 這些「野獸」被賦予了永恆的典雅
Facebook聯合創始人:被賦予極大話語權的Facebook在政治議題上表現很差
Akie Nakata 將石頭賦予了新的生命
iPhone的蘋果logo又被賦予新功能!渲染圖內部有攝像頭
Connie Junior:用愛編織,賦予每一件作品非凡的意義
DeepMind 賦予 AI 新技能:預測患者病情
Facebook推出一系列新隱私措施 賦予用戶更大控制權
賦予 Ferrari 812 Superfast 激進與奢華 碳纖上身猛發830匹強大動力!
DisplayMate 賦予 S9 顯示效果 A+等級:迄今最佳
科技賦予美無限可能,OPPO Find X真機圖賞
LeCun:賦予機器 「常識」 ,重新設計神經網路將是AI 研究重點
Jovi賦予了iQOO新生命,性能極致發揮終極原因,AI讓硬體變得更強