深度強化學習新趨勢：谷歌如何把好奇心引入強化學習智能體

新聞 03-22

本文為 AI 研習社編譯的技術博客，原標題：
What』s New in Deep Learning Research: How Google Builds Curiosity Into Reinforcement Learning Agents
作者 | Jesus Rodriguez

翻譯 | 醬番梨、卜嘉田、will_L_Q、Disillusion、J. X.L. Chan
校對 | Pita 審核 | 約翰遜·李加薪整理 | 立魚王
原文鏈接：
https://towardsdatascience.com/whats-new-in-deep-learning-research-how-google-builds-curiosity-into-reinforcement-learning-32d77af719e8

探索-利用困境是規範強化學習演算法的動力之一。如何平衡智能體應該探索環境的程度與如何執行特定操作和評估獎勵？在強化學習的背景下，探索和開發被視為獎勵模型中抑制好奇心的相反力量。然而，就像人類的認知一樣，強化學習智能體的好奇心產生於正確的知識，那麼我們如何在不懲罰智能體的情況下激發好奇心呢？這是Google Research最近發表的一篇研究論文的主題，論文介紹了一種在強化學習智能體中激發好奇心的方法。

大多數強化學習演算法都基於結構化獎勵模型，該模型假設有一組密集的獎勵可以與代理的行為相關聯。然而，現實世界中的許多環境都基於稀疏的獎勵機制，這些獎勵不易適應強化學習機制。考慮到強化學習智能體需要在庫環境中查找特定書籍的場景。智能體可以不斷地搜索，但書籍無處可尋，並且對特定行為沒有明確的獎勵。稀疏獎勵環境對於強化學習智能體來說是非常具有挑戰性的，因為他們不得不在沒有明確獎勵的情況下不斷探索環境。在那些環境中，強化學習智能體的「好奇心」對獲得適當的獎勵功能至關重要。換句話說，強化學習環境中的獎勵稀疏性與好奇心之間存在直接關係。

好奇心對決拖延

好奇心一直是強化學習中的一個活躍研究領域。大多數強化學習中好奇心公式旨在最大限度地增加「驚奇」或者無法預測未來。這種方法從神經科學的好奇心理論中得到啟發，但已被證明在強化學習模型中相對低效。效率低下的核心原因是，最大化與目標任務無關的好奇心沒有直接關係，因此會導致拖延。下面讓我來解釋這惱人的事實

讓我們以一個環境為例，在這個環境中，強化學習智能體被放入一個三維迷宮中。迷宮中有一個珍貴的目標，它會給予很大的獎勵。現在，智能體被給予了電視遙控器，並可以切換頻道。每個頻道顯示一個隨機圖像(從一組固定的圖像中選取)。優化驚喜的好奇心公式會很高興，因為頻道切換的結果是不可預測的。智能體將永遠停留在電視機前，而不會試圖解決目標任務。

這種困境很明顯：強化學習模型只應在有利於最終目標的情況下才能最大限度地激發好奇心。然而，我們如何知道哪些探索性步驟與目標任務相關而哪些又不相關。谷歌通過提出一種稱為Episodic Curiosity的方法來應對這一挑戰。

情境好奇

谷歌在強化學習領域的創新之處在於，通過引入努力的概念解決好奇心-拖延之間的摩擦。從本質上來講，情境記憶方法是一種僅對需要一定努力而獲取的觀察數據給與獎勵的方法，它建議去避免「自我沉溺的行為」。根據我們電視迷宮（maze-tv）例子，在轉換頻道之後，所有的節目將最終在內存中結束。因此，電視節目將不會具有任何吸引力，因為出現在屏幕上的節目順序是隨機的和不可預知的，所有這些節目都已經在存儲中了!一個情境存儲智能體將檢查過去, 以確定它是否看到了與當前類似的觀察結果，在這種情況下, 它不會得到任何獎勵。在電視上反覆播放幾次之後，情景存儲代理就不會被即時滿足所吸引，而必須去探索電視之外的世界以獲得額外的獎勵。聽起來是不是聰明啊？

情景記憶方法把好奇心和圖的可達性聯繫起來。智能體在劇集開始時以一個空的存儲開始，每一步都將當前的觀察結果與存儲中的觀察結果進行比較，以確定它的新穎性。如果當前的觀察確實是新穎的 - 那麼從記憶中的觀察中採取的步驟比閾值更多 - 那麼智能體就會獎勵自己，並將當前的觀察添加到情景存儲中。這個過程一直持續到劇集結束, 此時存儲將會被抹去。

深度強化學習新趨勢：谷歌如何把好奇心引入強化學習智能體

一個情景好奇心的神經網路架構

為了在強化學習代理中實現情景記憶功能，谷歌依賴於一種架構，該架構將兩個神經網路與情景記憶緩衝器和獎賞估計模塊相結合，如下圖所示:

深度強化學習新趨勢：谷歌如何把好奇心引入強化學習智能體

讓我們來看看情景記憶架構的各個組成部分：

嵌入和比較器網路：這兩個網路的目的是在給定另一個輸入觀察的情況下預測特定觀察的可達性。具體而言，兩個網路是基於一個稱為R-Network的架構，這是一個由邏輯回歸的損失訓練的分類器：如果在k步內兩個觀測從一個到另外一個的可達的概率比較低，那麼它的預測值接近於0，反之，當概率是很高時，其值接近於1。
情景記憶緩衝器：情景記憶緩衝器存儲當前情景中過去的觀察結果的嵌入，以便根據特定的觀察結果進行評估。
獎勵估計模塊：該模塊的目的是檢查內存中是否有可達到的觀察結果，如果沒有，則進行檢查。從本質上說，通過從當前狀態只採取一些行動，這個模塊的檢查確保在內存中沒有觀察可以達到，因此鼓勵好奇心。

在行動中的情景記憶

Google在一系列視覺環境（如ViZDoom和DMLab）中測試了情景記憶強化學習模型，結果非常出色。在這些環境中，智能體的任務是處理各種問題，例如在迷宮中搜索目標或收集好的內容以及避免壞對象。 DMLab環境碰巧為智能體提供了類似激光科幻小說中物件。之前關於DMLab的工作中的標準設置是為智能體配備所有任務的小工具，如果智能體不需要特定任務的小工具，則可以免費使用它。獎勵的稀疏性使得這些環境對於大多數傳統的強化學習方法而言非常具有挑戰性。當負責在迷宮中搜索高回報的項目時，它更喜歡花時間標記牆壁，因為這會產生很多「驚喜」獎勵。

深度強化學習新趨勢：谷歌如何把好奇心引入強化學習智能體