當前位置:
首頁 > 知識 > 谷歌大腦實現更寬廣的智能體視野,在Atari2600上可持續超越人類玩家!

谷歌大腦實現更寬廣的智能體視野,在Atari2600上可持續超越人類玩家!

選自arXiv

作者:Tobias Pohlen等

機器之心編譯

參與:Geek AI、王淑婷

深度強化學習的發展衍生出了能夠在各種遊戲任務中達到人類相當水平的智能體。但是如何讓這些智能體持續學習並超越人類玩家卻是一大難點。本文作者提出了一種新的深度 Q-網路演算法來解決這個問題。

1 引言

近年來,深度強化學習(RL)領域取得了重大進展,催生了能夠在各種各樣的任務中達到與人類控制能力水平相當的人工智慧體,這些任務其中就包括雅達利(Atari)2600 中的一些遊戲 [2]。在許多雅達利遊戲中,這些智能體學習到的遊戲策略遠遠超過了普通人類玩家的水平 [5,6,8]。然而,在整個遊戲過程中持續學習人類水平的策略仍然是一個開放性的問題。

作者認為,一個演算法需要解決三個關鍵問題才能在所有的雅達利遊戲中有良好的表現。首要的問題是處理各種獎勵分配。演算法必須穩定地進行學習,而不必考慮獎勵密度和尺度。Mnih 等人 [13] 指出,將獎勵的變化範圍裁剪到歸一化區間 [-1,1] 中是實現穩定性的一種方法。

然而,這種裁剪操作可能會改變最優策略的集合。例如,在保齡球遊戲中,智能體不再將擊倒一球和十球區別開來。因此,以一種穩定的方式優化不變的獎勵信號對於在遊戲中持續獲得良好性能至關重要的。第二個問題是進行長期推理,這意味著演算法應該能夠選擇可能在長期看來可以預見到較高累積獎勵的動作。例如,在「蒙特祖瑪的復仇(MONTEZUMA』S REVENGE)」中,個人獎勵可能被數百個時間步分隔開來。在標準的 γ 折扣強化學習中,這意味著演算法應該能夠處理近似於 1 的折扣因子(即直接計算累積獎勵)。最後的第三個問題是對馬爾可夫過程(MDP)的高效探索。一個高效探索的演算法能夠在合理的時間內發現具有高累積獎勵的長期軌跡,即使在這個軌跡中個人獎勵可能是十分稀疏的。雖然以上每個問題都在文獻中得到了部分解決,但是沒有一種現有的深度強化學習演算法能夠一次性解決這三個問題。

在本文中,作者提出了一種新的深度 Q-網路「Deep Q-Network(DQN)」演算法,專門用來解決這三個問題。為了能夠獨立於獎勵分布進行穩定的學習,作者使用了一種轉換後的 Bellman 運算元來減小動作-值函數的方差。利用轉換後的運算元進行學習可以使我們在不考慮密度和尺度的情況下處理不變的環境獎勵。作者證明了最優策略在確定性的馬爾科夫決策過程中是不變的,並說明了在特定的假設下,該運算元是隨機馬爾科夫決策過程(MDP)的一種收縮形式(即,演算法將收斂到一個定點,見 3.2 章)。由於引入了時序一致性(TC)損失,即使折扣因子很大時本文提出的演算法也能穩定地進行學習。時序一致性損失可以防止網路過早地泛化到不可見的狀態(見 3.3 章),這使作者可以在實際訓練中使用像 γ = 0.999 這樣高的折扣因子。與其它用於雅達利遊戲的深度強化學習方法相比,這將本文提出演算法的有效規劃範圍擴大了一個數量級。最後,本文通過將 Horgan 等人 [8] 提出的分散式經驗回放法和 Hester 等人 [7] 提出的「演示深度 Q 學習」演算法相結合,提高了 DQN 默認搜索策略的效率。最終的演算法架構是一個分散式的 actor-learner 系統,它結合了離線專家演示和在線智能體經驗(見 3.4 章)

作者通過實驗在 42 個遊戲上驗證了本文提出的演算法,這些遊戲已經通過專業人類玩家演示過(見表 5)。在所有遊戲中使用相同的超參數,本文提出的演算法在 40 個遊戲中的表現超過了普通人類玩家,其中在 34 個遊戲中超越專業玩家,並至少在 28 個遊戲中超過了目前最先進的智能體。此外,本文的演算法在具有稀疏獎勵的遊戲中顯著提升了目前最先進模型的水平。本文提出的演算法是首個通過「蒙特祖瑪的復仇」第一關的演算法,並且它還在「PITFALL」遊戲中取得了新的最高紀錄——3997 分!雖然僅僅使用了 5 個演示學習軌跡,這並沒有影響演算法在具有密集獎勵的遊戲中的表現。

圖 1:本文提出的計算框架(b)與 Horgan 等人提出的計算框架(a)的對比。

表 1:該表顯示了一種方法在測試遊戲哪個部分時的表現至少與另一種方法一樣好。用於比較的分數是在不加以任何操作的啟動方法下得出的。如 4.1 章所述,作者將智能體的得分與普通人類玩家、專業玩家相對比。Ape-X DQfD(更深的模型)在 42 個遊戲中,有 40 個遊戲的表現超過了普通人。

表 2: 該表顯示了本文演算法的人為歸一化性能和基線。對於每一個遊戲,作者將分數歸一化為

接著在所有的遊戲上對該分數進行聚集(求均值或中值,類似於資料庫中的聚集函數)。由於本文僅僅為 57 種遊戲中的 42 種提供了演示,所以作者在此分別展示了在 42 種有演示的遊戲中的表現,以及 在 57 種用作基線且沒有使用演示的遊戲中的表現。

圖 2:該圖顯示了隨著時間的推移,累計無折扣訓練階段的返回值,並且將最佳專家完成的任務階段和最佳的 Ape-X DQfD 的任務階段進行了對比。在遊戲「HERO」中,該演算法超越了人類專家的表現。在「蒙特祖瑪的復仇」中,它以更短的時間取得了與人類專家相匹敵的成績。然而,在「MS.PACMAN」中,人類專家仍然技高一籌。

圖 3:使用標準的網路架構進行模型簡化測試的實驗結果。不使用專家數據(紅線所示)的實驗採用了 [8] 中使用的較快探索進度。

圖 4:該圖顯示了當我們將轉換後的 Bellman 運算元替換為 PopArt 時,以及將時序一致性(TC)損失替換為受限時序差分(TD)更新時,模型性能與本文演算法性能的對比。請注意,本圖刻度與圖 3 中的刻度不同,因為本次實驗只運行了 40 小時。

論文:Observe and Look Further: Achieving Consistent Performance on Atari(欲窮千里目,更上一層樓:在 Atari 遊戲中獲得始終如一的良好性能)

論文地址:https://arxiv.org/pdf/1805.11593.pdf

儘管深度強化學習(RL)領域取得了重大進展,但現有的演算法仍然不能在各種任務(如雅達利 2600 遊戲)上始終如一地習得與人類水平相當的策略。本文作者指出任何的強化學習演算法都需要解決三個主要的問題才能在所有的遊戲中取得出色的表現:處理各種各樣的獎勵分布,進行長期推理,展開高效的探索。在本文中,作者提出了一種新的演算法來解決這些問題,能在幾乎所有的雅達利遊戲中習得與人類水平相當的策略。一種新的轉換後的 Bellman 運算元使我們的演算法能夠處理具有各種密度和尺度的獎勵。一種附加的時序一致性損失讓我們能夠使用 γ = 0.999 (而不是 γ = 0.99) 的折扣因子更穩定地訓練,同時將有效規劃範圍擴大一個數量級。作者通過使用人類演示緩解探索問題,這種演示能夠指引智能體走向獲得獎勵的狀態。使用 42 種雅達利遊戲進行測試時,本文提出的演算法使用一組常見的超參數,在 40 種遊戲中超越了普通人類的表現。此外,這是第一個通過「蒙特祖瑪的復仇」第一關的演算法。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

你知道《聖經》中的主要角色有哪些嗎?三種NLP工具將告訴你答案!
圖鴨科技獲CVPR 2018圖像壓縮挑戰賽單項冠軍,技術解讀端到端圖像壓縮框架

TAG:機器之心 |