深度強化學習中的好奇心

新聞 12-26

本文為 AI 研習社編譯的技術博客，原標題：

Curiosity in Deep Reinforcement Learning

作者 |Michael Klear

翻譯 | 凝決2018

校對 | 醬番梨整理 | 菠蘿妹

https://towardsdatascience.com/curiosity-in-deep-reinforcement-learning-understanding-random-network-distillation-747b322e2403

深度強化學習中的好奇心

早期一個很難的深度強化學習任務，蒙特祖馬的復仇，隨著隨機網路蒸餾探索取得了重大突破（來源：Parker Brothers Blog）。

Atari遊戲是流行的深度強化學習（RL）演算法基準任務。Atari很好地平衡了簡單性和複雜性：一些遊戲（例如Pong），簡單到可以使用像一般策略梯度這樣的基本演算法來解決；而其他遊戲則足夠複雜，甚至可以難倒最先進的演算法。

在最簡單和最複雜遊戲之間的一系列有用任務，已經成為很多深度強化學習研究論文的核心。

來自OpenAI博客。

之前「未解決的」Atari遊戲，蒙特祖瑪的復仇，最近被一種演算法（在某種程度上）解決了，該演算法能夠在得分方面超越人類表現。研究人員能夠鼓勵智能體探索級別1的不同房間，這是在此遊戲中贏得積分的好方法。

通過好奇心探索

人類玩冒險遊戲（如蒙特祖瑪的復仇）時，有一種內在的探索慾望。遊戲設計師構建此類遊戲鼓勵這種行為，通常要求玩家進行探索後才能繼續遊戲。這可以說是冒險遊戲有趣的原因（問問任何一個喜歡玩《天際》的人。）

像《蒙特祖瑪的復仇》或《天際》這樣的冒險遊戲充分利用了玩家的自然探索慾望，使探索成為完成遊戲任務的關鍵組成部分。

一般的深度強化學習演算法表現「探索」典型的方式是通過隨機策略：從神經網路提供的動作似然分布中隨機採樣動作。其結果，特別在早期（當策略沒有時間收斂時），是明顯的隨機行動選擇。

此種方法在某些情況下有效。例如，Pong的解決方法是隨機轉動槳頁並觀察結果。幸運的話，球偏轉可以啟動優化。

在類似《蒙特祖馬的復仇》這樣的遊戲中，這種方法是行不通的。試想從遊戲一開始，頭像隨機左右移動、隨機跳躍，結果就是陷入熔岩，或者在沒有獲得積分的情況下直接走進敵人。沒有積分或獎勵，演算法得不到優化的信號。

所以，你就打算隨機隨意連枷？祝你好運（來源）。

好奇心

強調尋找更好的探索方法已經有很多次了。基於好奇心的探索可以被視為人類玩家好奇心驅動行為的一次嘗試。

但是我們如何創造一個好奇智能體呢？

實現這個想法有多種方式。其中一種，即使用下一狀態預測，因其簡單性和可擴展性顯得十分有趣。

基本思路是在培養獨立預測模型同時培養策略模型。該預測模型輸入觀察到的當前狀態和所選動作，並為下次觀察做出預測。

對於探索充分的軌跡，我們假設損失很小（因為通過監督學習，我們不斷培養預測模型）；對於探索不充分的軌跡，我們假設損失會很大。

那麼，我們可以做的是創建一個新的獎勵函數（稱為「內在獎勵」），它提供與預測模型的損失成比例的獎勵。因此，當探索新的軌跡時，智能體接收到強烈的獎勵信號。

（a）級別1學習探索（b）級別2更快速的探索

在馬里奧模擬器任務（源）中使用下一次預測，「學習探索」由級別1中的好奇心，通向級別2的更快速的探索。

這種技術在超級馬里奧模擬器中產生了一些令人鼓舞的結果。

拖延智能體：電視問題

這種技術並不完美。一個已知問題是：智能體被環境中的隨機元素或嘈雜元素吸引。這鐘情況有時被稱為「白雜訊」問題或「電視問題」; 亦被稱為「拖延」。

為證明這種效果，想像一個智能體，通過觀察他看到的像素學習在迷宮中導航。

下一狀態預測引起智能體學習迷宮成功導航的好奇心（來源）。

智能體很好的完成了任務;他開始尋找未迷宮未被探索的部分，因為他有能力在探索充分的地區做出良好的預測（或者說，他無法在未開發的地區做出好的預測。）

現在在迷宮的牆上放置一個「電視」，快速連續地顯示隨機選擇的圖像。由於圖像的隨機來源，智能體無法準確預測接下來會出現什麼圖像。預測模型將產生高損失，從而為智能體提供高「內在」獎勵。最終結果是智能體傾向於停下看電視，而不是繼續探索迷宮。

在環境（來源）中，當智能體面對電視，或隨機雜訊來源時，下一狀態預測引起智能體好奇心最終導致「拖延」。

用隨機網路蒸餾避免拖延。

OpenAI一些優秀的人最近發表了一篇論文，提出噪音電視問題的解決方案，隨機網路蒸餾（RND）探索。

這裡的新穎想法是將類似的技術應用於下一狀態預測方法，但是去除對先前狀態的依賴性。

下一狀態預測對比RND概述（來源）。

RND不是預測下一個狀態，而是從下一個狀態進行觀察，並嘗試對下一個狀態進行預測。這是一個非常微不足道的預測，對嗎？

RND隨機網路目的是採用這個微小的預測任務並將其轉換為硬預測任務。

使用隨機網路

這是一個聰明的，但卻反直覺的解決方案。

想法是，我們使用隨機初始化的神經網路將觀察結果映射到潛在的觀察向量。這個函數本身的輸出實際上並不重要;重要的是我們有一些未知的確定性函數（一個隨機初始化的神經網路）以某種方式轉換觀察結果。

因此，我們的預測模型的任務不是預測下一個狀態，而是預測給定觀察狀態的未知隨機模型的輸出。我們訓練這個模型使用隨機網路輸出標籤。

當智能體在熟悉的狀態中，預測模型應該很好地預測來自隨機網路的預期輸出。當智能體處於不熟悉狀態時，預測模型將對隨機網路輸出做出不良預測。

通過這種方式，我們可以定義一個內在的獎勵函數，該函數再次與預測模型的損失成比例。

內在獎勵計算的概念性概述。僅使用下一狀態觀察。

這可以被解釋為「新穎性檢測」方案，其中預測模型進行新的觀察或不熟悉觀察時，計算的損失更高。

作者使用MNIST作為這個想法的概念驗證。在這個實驗中，他們通過隨機初始化的神經網路提供MNIST一類字元。然後，在給定輸入條件下，他們訓練並行網路預測隨機網路的輸入。正如預期的那樣，當目標類的訓練樣例數量增加時，他們會看到並行網路對目標類丟失的損失。

數據2：MNIST上的新穎性檢測：預測器網路模仿隨機初始化的目標網路。訓練數據包括來自「0」類的不同比例的圖像和目標類別。各條曲線表示MSE測試顯示的針對目標類的訓練例數繪製的目標類例（對數）

研究論文中的MNIST概念驗證。

通過這種方式，當智能體看到隨機雜訊源時，它不會卡住。它不再試圖預測屏幕上不可預測的下一幀，而只需要了解這些幀如何被隨機網路轉換。

探索蒙特祖瑪的復仇

由於解決方案不好，之前的下一狀態預測好奇心機制無法解決蒙特蘇馬的復仇，但RND似乎已經克服了這些問題。

由好奇心驅動的智能體探索房間，並學習收集鑰匙，以便他們解鎖新房間。

儘管取得了這樣的成功，但智能體只是「偶爾」通過了級別1。這是因為通過最後一道門完成關卡，需要嚴格管理鑰匙使用。需要通過內部狀態模型（如LSTM）來克服這一障礙。

因此，雖然RND已經讓智能體在得分方面超過了人類的平均表現，但在掌握遊戲之前還有很長的路要走。

這是關於深度強化學習演算法實驗一系列帖子的一部分。查看系列中之前的一些帖子：

了解演進的策略梯度。

感謝Ludovic Benistant。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※AI行業1000＋投研領袖中心即將誕生 3天後揭曉
※ICML 2019 大會投稿新要求出爐！

TAG:雷鋒網 |