當前位置:
首頁 > 新聞 > 深度強化學習中的好奇心

深度強化學習中的好奇心

本文為 AI 研習社編譯的技術博客,原標題 :

Curiosity in Deep Reinforcement Learning

作者 |Michael Klear

翻譯 | 凝決2018

校對 | 醬番梨       整理 | 菠蘿妹

https://towardsdatascience.com/curiosity-in-deep-reinforcement-learning-understanding-random-network-distillation-747b322e2403

深度強化學習中的好奇心

早期一個很難的深度強化學習任務,蒙特祖馬的復仇,隨著隨機網路蒸餾探索取得了重大突破(來源:Parker Brothers Blog)。

Atari遊戲是流行的深度強化學習(RL)演算法基準任務。Atari很好地平衡了簡單性和複雜性:一些遊戲(例如Pong),簡單到可以使用像一般策略梯度這樣的基本演算法來解決;而其他遊戲則足夠複雜,甚至可以難倒最先進的演算法。

在最簡單和最複雜遊戲之間的一系列有用任務,已經成為很多深度強化學習研究論文的核心。

來自OpenAI博客。

之前「未解決的」Atari遊戲,蒙特祖瑪的復仇, 最近被一種演算法(在某種程度上)解決了,該演算法能夠在得分方面超越人類表現。研究人員能夠鼓勵智能體探索級別1的不同房間,這是在此遊戲中贏得積分的好方法。


  通過好奇心探索

人類玩冒險遊戲(如蒙特祖瑪的復仇)時,有一種內在的探索慾望。遊戲設計師構建此類遊戲鼓勵這種行為,通常要求玩家進行探索後才能繼續遊戲。這可以說是冒險遊戲有趣的原因(問問任何一個喜歡玩《天際》的人。)

像《蒙特祖瑪的復仇》或《天際》這樣的冒險遊戲充分利用了玩家的自然探索慾望,使探索成為完成遊戲任務的關鍵組成部分。

一般的深度強化學習演算法表現「探索」典型的方式是通過隨機策略:從神經網路提供的動作似然分布中隨機採樣動作。其結果,特別在早期(當策略沒有時間收斂時),是明顯的隨機行動選擇。

此種方法在某些情況下有效。例如,Pong的解決方法是隨機轉動槳頁並觀察結果。幸運的話,球偏轉可以啟動優化。

在類似《蒙特祖馬的復仇》這樣的遊戲中,這種方法是行不通的。試想從遊戲一開始,頭像隨機左右移動、隨機跳躍,結果就是陷入熔岩,或者在沒有獲得積分的情況下直接走進敵人。沒有積分或獎勵,演算法得不到優化的信號。

所以,你就打算隨機隨意連枷?祝你好運(來源)。


  好奇心

強調尋找更好的探索方法已經有很多次了。基於好奇心的探索可以被視為人類玩家好奇心驅動行為的一次嘗試。

但是我們如何創造一個好奇智能體呢?

實現這個想法有多種方式。其中一種,即使用下一狀態預測,因其簡單性和可擴展性顯得十分有趣。

基本思路是在培養獨立預測模型同時培養策略模型。該預測模型輸入觀察到的當前狀態和所選動作,並為下次觀察做出預測。

對於探索充分的軌跡,我們假設損失很小(因為通過監督學習,我們不斷培養預測模型);對於探索不充分的軌跡,我們假設損失會很大。

那麼,我們可以做的是創建一個新的獎勵函數(稱為「內在獎勵」),它提供與預測模型的損失成比例的獎勵。因此,當探索新的軌跡時,智能體接收到強烈的獎勵信號。

(a)級別1學習探索    (b)級別2更快速的探索

在馬里奧模擬器任務(源)中使用下一次預測,「學習探索」 由級別1中的好奇心,通向級別2的更快速的探索。

這種技術在超級馬里奧模擬器中產生了一些令人鼓舞的結果。


  拖延智能體:電視問題

這種技術並不完美。一個已知問題是:智能體被環境中的隨機元素或嘈雜元素吸引。這鐘情況有時被稱為「白雜訊」問題或「電視問題」; 亦被稱為「拖延」。

為證明這種效果,想像一個智能體,通過觀察他看到的像素學習在迷宮中導航。

下一狀態預測引起智能體學習迷宮成功導航的好奇心(來源)。

智能體很好的完成了任務;他開始尋找未迷宮未被探索的部分,因為他有能力在探索充分的地區做出良好的預測(或者說,他無法在未開發的地區做出好的預測。)

現在在迷宮的牆上放置一個「電視」,快速連續地顯示隨機選擇的圖像。由於圖像的隨機來源,智能體無法準確預測接下來會出現什麼圖像。預測模型將產生高損失,從而為智能體提供高「內在」獎勵。最終結果是智能體傾向於停下看電視,而不是繼續探索迷宮。

在環境(來源)中,當智能體面對電視,或隨機雜訊來源時,下一狀態預測引起智能體好奇心最終導致 「拖延」。

用隨機網路蒸餾避免拖延。

OpenAI一些優秀的人最近發表了一篇論文,提出噪音電視問題的解決方案,隨機網路蒸餾(RND)探索。

這裡的新穎想法是將類似的技術應用於下一狀態預測方法,但是去除對先前狀態的依賴性。

下一狀態預測 對比RND概述(來源)。

RND不是預測下一個狀態,而是從下一個狀態進行觀察,並嘗試對下一個狀態進行預測。這是一個非常微不足道的預測,對嗎?

RND隨機網路目的是採用這個微小的預測任務並將其轉換為硬預測任務。


  使用隨機網路

這是一個聰明的,但卻反直覺的解決方案。

想法是,我們使用隨機初始化的神經網路將觀察結果映射到潛在的觀察向量。這個函數本身的輸出實際上並不重要;重要的是我們有一些未知的確定性函數(一個隨機初始化的神經網路)以某種方式轉換觀察結果。

因此,我們的預測模型的任務不是預測下一個狀態,而是預測給定觀察狀態的未知隨機模型的輸出。我們訓練這個模型使用隨機網路輸出標籤。

當智能體在熟悉的狀態中,預測模型應該很好地預測來自隨機網路的預期輸出。當智能體處於不熟悉狀態時,預測模型將對隨機網路輸出做出不良預測。

通過這種方式,我們可以定義一個內在的獎勵函數,該函數再次與預測模型的損失成比例。

內在獎勵計算的概念性概述。僅使用下一狀態觀察。

這可以被解釋為「新穎性檢測」方案,其中預測模型進行新的觀察或不熟悉觀察時,計算的損失更高。

作者使用MNIST作為這個想法的概念驗證。在這個實驗中,他們通過隨機初始化的神經網路提供MNIST一類字元。然後,在給定輸入條件下,他們訓練並行網路預測隨機網路的輸入。正如預期的那樣,當目標類的訓練樣例數量增加時,他們會看到並行網路對目標類丟失的損失。

數據2:MNIST上的新穎性檢測:預測器網路模仿隨機初始化的目標網路。 訓練數據包括來自「0」類的不同比例的圖像和目標類別。各條曲線表示MSE測試顯示的針對目標類的訓練例數繪製的目標類例(對數)

研究論文中的MNIST概念驗證。

通過這種方式,當智能體看到隨機雜訊源時,它不會卡住。它不再試圖預測屏幕上不可預測的下一幀,而只需要了解這些幀如何被隨機網路轉換。


  探索蒙特祖瑪的復仇

由於解決方案不好,之前的下一狀態預測好奇心機制無法解決蒙特蘇馬的復仇,但RND似乎已經克服了這些問題。

由好奇心驅動的智能體探索房間,並學習收集鑰匙,以便他們解鎖新房間。

儘管取得了這樣的成功,但智能體只是「偶爾」通過了級別1。這是因為通過最後一道門完成關卡,需要嚴格管理鑰匙使用。需要通過內部狀態模型(如LSTM)來克服這一障礙。

因此,雖然RND已經讓智能體在得分方面超過了人類的平均表現,但在掌握遊戲之前還有很長的路要走。

這是關於深度強化學習演算法實驗一系列帖子的一部分。查看系列中之前的一些帖子:

了解演進的策略梯度。

感謝Ludovic Benistant。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

AI行業1000+投研領袖中心即將誕生 3天後揭曉
ICML 2019 大會投稿新要求出爐!

TAG:雷鋒網 |