深度強化學習試金石：DeepMind和OpenAI攻克蒙特祖瑪復仇的真正意義

新聞 07-24

新智元報道

編譯：肖琴

【新智元導讀】《蒙特祖瑪的復仇》是一個出了名困難的遊戲，是強化學習的一大挑戰。本文作者長期從事深度強化學習研究，他認為DeepMind和OpenAI攻克蒙特祖瑪的復仇並沒有看上去意義那麼重大，深度強化學習的長期目標是讓智能體具備先驗知識，可以從零開始玩遊戲。

深度強化學習試金石：DeepMind和OpenAI攻克蒙特祖瑪復仇的真正意義

最近，DeepMind和OpenAI都宣布他們開發了可以學習完成Atari 2600遊戲《蒙特祖瑪的復仇》第一關的智能體。他們這些宣稱很重要，因為《蒙特祖瑪的復仇》這個遊戲對於AI研究來說很重要。與街機學習環境（Arcade Learning Environment，ALE）里的絕大多數遊戲不同，大多數遊戲現在很容易被利用深度學習的agent解決掉，達到超越人類水平的表現。但《蒙特祖瑪的復仇》一直沒有被深度強化學習方法解決，而且被一些人認為在未來的幾年裡都無法解決。

深度強化學習試金石：DeepMind和OpenAI攻克蒙特祖瑪復仇的真正意義

蒙特祖瑪的復仇的第一個房間

蒙特祖瑪的復仇與ALE中其他遊戲的區別在於，它的獎勵（rewards）相對少。這意味著agent只在長時間完成特定的一系列動作之後才會收到獎勵信號。在蒙特祖瑪的復仇的第一個房間里（見上圖1），這意味著agent要從梯子上下來，用繩子跳過一個空地，從另一個梯子下來，跳過一個會移動的敵人，最後還要爬上另一個梯子。所有這些只是為了在第一個房間里拿到第一把鑰匙！

在遊戲的第一關，有23個這樣的房間，agent要在這些房間里拿到所有鑰匙，才能完成這個關卡（見圖2）。更複雜的是，遊戲中導致失敗的條件也相當嚴格，agent會由於很多可能的事件導致死亡，其中最累人的是從高的地方墜落。不熟悉這個遊戲的人可以試著玩一下，看看你要花多長時間才能通過第一個房間，更不用說通過第一個關卡了。這個遊戲有在線版本：

https://www.retrogames.cz/play_124-atari2600.php?language=EN

深度強化學習試金石：DeepMind和OpenAI攻克蒙特祖瑪復仇的真正意義

蒙特祖瑪的復仇第一關

由於難度太高，《蒙特祖瑪的復仇》遊戲被視為Deep RL方法的一大挑戰。事實上，這款遊戲激發了一些更有趣的方法的開發，這些方法可以對傳統的Deep RL演算法進行增強或重構，利用新的方法進行分層控制、探索和體驗回放。因此，當DeepMind和OpenAI各自聲稱已經開發出能夠如此出色地玩這個遊戲的演算法時，就成了大新聞（至少在有些領域是如此）。

DeepMind和OpenAI在這個遊戲到底達到了多厲害的水平呢？是這樣先前的技術最高水平是2600分（DeepMind的FuN模型），而新方法可以達到數萬分。從工程和理論的角度來看，所有這三種方法都得到了令人印象深刻的結果，所有方法都需要學習。

但是，用深度強化學習來解決蒙特祖瑪的復仇的說法並不像它們看起來的那樣。在這三種情況下（DeepMind的兩篇論文和OpenAI的一篇博客文章），使用人類專家演示都是他們的演算法的一個組成部分，這從根本上改變了學習問題的本質。

在這篇文章中，我想討論的是，這些方法是為了解決蒙特祖瑪的復仇遊戲的第一個關卡，以及為什麼在遊戲環境以及Deep RL的長期目標中，這些方法並沒有看上去意義重大。最後，我將簡要地討論一下這個出了名困難的遊戲中真正重大的結果是什麼，這將為這個領域指明前進的方向。

DeepMind的結果：從YouTube學習和Q-Learning

從YouTube學習

DeepMind在5月份發布了一篇引人注目的論文「通過觀看YouTube來玩困難的探索遊戲」（Playing hard exploration games by watching YouTube），裡面提出了我們今天介紹的解決蒙特祖瑪的復仇的三種方法中最有趣的一種。正如題目所示，研究小組設計了一種方法，可以使用專業玩家通關遊戲第一關的視頻來輔助學習過程。

「從視頻學習」這個問題本身就是一個有趣的挑戰，完全超出了遊戲本身的挑戰。正如作者所指出的，在YouTube上發現的視頻包含了各種各樣的artifacts，它們可以阻止在視頻中發生的事情與在ALE中玩遊戲的agent可能觀察到的事情之間進行映射。為了解決這一「差距」，他們創建了一種方法，能夠將對遊戲狀態（視覺的和聽覺的）的觀察結果嵌入到一個共同的嵌入空間中。

深度強化學習試金石：DeepMind和OpenAI攻克蒙特祖瑪復仇的真正意義

不同的演示視頻和模擬器圖像的比較

然後，利用這個嵌入空間為學習智能體提供獎勵。agent不再只接受原始遊戲提供的稀疏獎勵，而是還能獲得中間獎勵，該中間獎勵對應於沿著專家玩家提供的路徑到達檢查點。通過這種方式，agent可以獲得更強的學習信號，最終以41000的分數通過了遊戲的第一關。

Q-Learning

大約在YouTube論文發表的同時，DeepMind分享了另一組實驗的結果，這次的論文標題不那麼引人注目：「Observe and Look Further: Achieving Consistent Performance on Atari」。

在論文中，他們提出一系列有趣的演算法改進Deep Q-learning，提高演算法的穩定性和能力。第一個是在Q-update中增加折扣因子（discount factor），這樣就可以學習更長期的時間依賴性，而不需要考慮高折扣因子的典型缺點。第二種方法是使Deep Q-learning能夠解釋不同數量級的獎勵信號，從而使演算法能夠解決最優策略涉及學習這些不同獎勵的任務。

除了這兩項改進之外，他們還建議使用人類演示（human demonstrations）作為增強探索過程的一種手段，自動向網路提供專業玩家會遵循的狀態空間軌跡的信息。結合這三種改進，作者最終得到一個能夠以38000分的成績完成蒙特祖瑪的復仇第一關的agent。值得注意的是，只使用前兩項改進（沒有人類演示）不足以在遊戲中獲得矚目的表現，得分只有2000多分。

OpenAI的結果：近端策略優化

深度強化學習試金石：DeepMind和OpenAI攻克蒙特祖瑪復仇的真正意義

訓練期間使用restart

在DeepMind的結果發表幾周後，OpenAI發布了一篇博客文章，描述了一種也可以訓練智能體完成蒙特祖瑪的復仇第一關的方法。該方法也依賴於人類的演示，但他們的方法與DeepMind的方法稍有不同。

在OpenAI的方法中，人類演示不是作為獎勵或學習信號的一部分，而是作為智能體重新啟動（restart）的一種手段。在遊戲中給定人類專家的移動軌跡，agent在遊戲接近尾聲時啟動，然後在每次重新啟動的過程中緩慢地往回移動軌跡。這樣做的好處是，僅將agent暴露給遊戲中人類玩家已經探索過的部分，並隨著agent本身變得更強而擴大範圍。因為使用了默認的近端策略優化（PPO演算法），這種方法對實際學習演算法沒有任何改變。只要在「正確」的位置啟動agent，就足以確保它找到正確的解決方案，最終，該方法獲得了歷史最高的74500分。

模仿學習的局限性

上述所有方法都有一個共同點，就是它們都使用了一組人類專家的演示。第一種方法利用演示來學習獎勵信號，第二種方法利用演示來學習更準確的Q值，第三種方法利用演示來更智能地重新啟動agent。在這三種情況下，演示對學習過程都至關重要。一般來說，使用演示是為agent提供關於任務的有意義的知識的好方法。實際上，這就是我們人類能夠學習無數任務的方法。人類從演示中學習的能力的關鍵是，我們能夠對單個演示進行抽象和歸納，並在新的情況中利用。就《蒙特祖瑪的復仇》這個遊戲而言，與其開發一種通用的遊戲解決方案（如DeepMind的兩篇論文所指出的那樣），真正被開發出來的是一種利用遊戲的關鍵弱點作為實驗平台的聰明方法：遊戲的確定性（determinism）。

不管是人類還是AI智能體，每次玩《蒙特祖瑪的復仇》時，都會看到很多完全相同的房間，每個房間都有完全相同的障礙和謎題。因此，對每個房間里的動作進行簡單的記憶就足以讓你獲得高分，並且能夠通過這一關。雖然如果智能體被迫從頭開始學習不一定是明顯的缺陷，但當這種情況加入了專家演示時，就變成了一個缺陷。這三種解決方案都利用了遊戲的確定性，使智能體能夠更輕鬆地學習解決方案的路徑。最終它學到的不是如何玩困難的遊戲，而是如何執行預先確定的一套動作，以完成特定的遊戲。

OpenAI的博客文章簡要地提到了確定性的問題，但它是在Atari 模擬器本身的層面，而不是在特定的遊戲層面。他們的解決方案是使用一個隨機的跳幀控制（frame-skip）來阻止agent記住軌跡。雖然這阻止了agent記憶一系列的動作，但它並不阻止通過狀態空間來記憶一般軌跡。

在所有這些情況下，《蒙特祖瑪的復仇》這個遊戲不再是稀疏獎勵問題的一個很難解決的問題，而是變成了通過固定的狀態空間學習軌跡一個更容易的問題。這是令人遺憾的，因為在最初的構想中，這個遊戲仍然可能為深度強化學習的研究者提供更具吸引力的挑戰。

解決蒙特祖瑪的復仇——艱難的道路

幾年來，我一直密切關注著蒙特祖瑪的復仇的結果，因為我把它們看作是一種試金石，用來檢驗深度強化學習是否開始顯示出更一般的推理和學習能力的跡象。許多結果表明，給定足夠的計算能力，深度強化學習，甚至隨機搜索都能解決簡單的優化問題。然而，許多研究人員對人類水平的智能感興趣，而這不僅是簡單的優化。它涉及在多個抽象層次上學習和推理概念，包括將從一個問題空間學到的概念知識以一種可適應的方式推廣到許多問題空間。

當你把蒙特祖瑪的復仇的第一個房間呈現給任何人，並問他們需要做什麼時，他們很快就會開始向你描述一系列的行動和觀察，這表明人類對遊戲可能的動態有複雜的理解。最明顯的表現他們會認識到鑰匙是理想的物體，骷髏頭是需要避免的東西，梯子是有活動能力的東西。然後鑰匙暗示打開鎖著的門的能力，突然出現複雜的多步驟計劃以及如何完成關卡的方式。這種推理和計劃不僅適用於遊戲的某個特定關卡，還適用於我們所遇到的任何類似的關卡或遊戲。這些技能對於人類智能而言至關重要，而且對於那些試圖將深度強化學習推廣到一套簡單的優化演算法之外的人來說也很感興趣。然而，在確定性環境中使用人類演示完全繞過了對這些技能的需要。

深度強化學習試金石：DeepMind和OpenAI攻克蒙特祖瑪復仇的真正意義

如果沒有用來解釋視覺場景的先驗知識，像《蒙特祖瑪的復仇》這類遊戲看起來可能是這樣的

當然，這些技能也是最難以用演算法形式表達的，尤其是它們的人類表現形式尚沒有被完全理解。特別是在概念學習的情況下，通常需要把外部的一般知識引入到新的問題上。正如伯克利的一個研究團隊所指出的那樣，如果我們沒有先驗知識（無論是與生俱來來說後天學習的），許多我們認為理所當然的視頻遊戲會變得更加複雜。

然後問題就變成了，AI智能體如何才能自然地學習像《蒙特祖瑪的復仇》這樣的遊戲所需要的先驗知識。此外，這些習得的先驗知識如何不僅僅被用於玩一個特定遊戲的特定關卡，而是可以玩任何類似遊戲的任何關卡。表示學習和概念基礎方面正在進行一些有趣的工作，我認為這對解決這些問題是至關重要的。還有一些工作正在開發更多的隨機環境，以更好地測試智能體的泛化能力，其中最引人注目的是GVGAI競賽（通用視頻遊戲AI競賽）。

我熱切地期待有一天我們可以毫無疑問地說，AI智能體可以學會從頭開始玩《蒙特祖瑪的復仇》。當那一天到來時，會有很多令人興奮的事情。

參考鏈接：

【1】Playing hard exploration games by watching YouTube

https://arxiv.org/abs/1805.11592

【2】Observe and Look Further: Achieving Consistent Performance on Atari

https://arxiv.org/abs/1805.11593

【3】Learning Montezuma』s Revenge from a Single Demonstration

https://blog.openai.com/learning-montezumas-revenge-from-a-single-demonstration/

深度強化學習試金石：DeepMind和OpenAI攻克蒙特祖瑪復仇的真正意義