當前位置:
首頁 > 新聞 > 從認知學到進化論,詳述強化學習兩大最新突破—第二部分

從認知學到進化論,詳述強化學習兩大最新突破—第二部分

更多精彩,敬請關注矽谷洞察官方網站(http://www.svinsight.com)

快速學習對慢學習的依賴並非巧合。正如我們將在下面論述的那樣,它是一個基本原則,不僅適用於AI,也適用於心理學和神經科學。然而,在考慮這個一般性觀點之前,我們將研究它在第二個用於快速deep RL技術 - meta-RL中的作用。

Meta-RL:通過學習如何學習來加速deep RL

如前所述,標準deep RL速度慢,除了增量更新,還有弱感應偏差。正如在偏差 - 方差權衡的概念中所描述的,快速學習要求對需要學習的模式結構要有一組合理數量的假設。假設設置得越細(窄),學習速度就越快。然而,正如前面所提到的,有一個問題:一個狹義的假設集只有在它包含正確的假設時才會提高學習速度。雖然強歸納偏置可以加速學習,但只有學習者採用的特定偏置恰好與學習材料相符合時才行。因此,這裡出現了一個新的學習問題:學習者如何知道採用什麼歸納偏置?

看到這個問題,很容易想到的答案是借鑒過去的經驗。顯然,這就是我們日常生活中的情形。例如,學習使用新的智能手機。在這種情況下,一個人過去使用智能手機和其他相關設備的經驗可以用來假設新手機應該如何工作,也可以用來指導摸索手機操作。這些初始假設對應於偏差 - 方差權衡中的「偏差」,它們會影響快速學習能力。沒有這些初始偏置的學習者(即具有更高的「方差」)會考慮更廣泛的關於手機操作的假設,但這樣就會犧牲學習速度。

利用過去的經驗來加速新學習在機器學習中被稱為元學習(meta-learning)。其實這個想法源於心理學,被稱為「學習如何學習」。這個術語首次出現在一篇心理學研究過論文中,作者Harlow給出了一個可以很好體現這個術語的實驗。在實驗里,一群猴子面前放著兩個它們不熟悉的物體,並允許它們拿起其中一個。

物體下面可能是食物獎勵,也可能是空的。然後將兩個物體再次放在猴子面前,但是位置可能左右顛倒,重複該過程6輪。然後用兩個新的,猴子不熟悉的物體,並重複之前的試驗6次。重複更換物體,依此類推。隨著測試次數增加,猴子們能發現一個簡單規則:總是有一種物體下面有食物而另一種物體沒有,不管這種物體放左還是放右。因此當給它們一對新物體時,猴子只要試一次就知道應該選哪個了。這是一個關於學習如何學習的簡單生動的例子。

現在回到機器學習,新的研究工作表明怎樣利用元學習來加速深度學習,已經有很多方法可以實現這個思路。其中一種方法與神經科學和心理學有著特殊的聯繫。在這個方法里,循環神經網路在一系列相互關聯的RL任務上進行訓練。

網路中的權重調整非常緩慢,因此可以反應出任務中共性的內容,但不能快速更改以用於任何單個任務的解決方案。在這種情況下,循環網路的活動狀態可以實現自己的RL演算法,該演算法基於過去任務產生的知識來快速解決每個新任務。也就是說,一個RL演算法產生另一個,因此被命名為"meta-RL"。

與episodic deep RL一樣,meta-RL也與快速和慢速學習之間的密切聯繫有關。循環網路的權重在任務之間緩慢更新,允許任務間的共性信息「內置」到循環網路的狀態中。由此產生的網路狀態變化實現了一種新的學習演算法,可以快速解決新問題,因為慢速學習的基礎過程給了它們有用的歸納偏置。這又是一次快速學習源於慢學習,並且通過慢學習實現提速。

Episodic Meta-RL

注意!我們上面討論的兩種技術並不相互排斥。實際上,最近的研究表明可以元學習(meta-learning)和情景控制(episodic control)整合起來,實現互補。在Episodic Meta-RL中,如前所述,元學習發生在循環神經網路中。疊加在其上的是情景記憶系統,其作用是恢復循環神經網路的活動模式。與episodic deep RL一樣,情景記憶對一組過去事件進行編目,可以根據當前上下文查詢這些事件。然而,Episodic Meta-RL不是將上下文與估值聯繫起來,而是將它們與來自循環網路的內部或隱藏單元的存儲活動模式連接起來。這些模式很重要,因為通過meta-RL,它們總結了agent從與單個任務交互中學到的東西。在episodic meta-RL中,當agent遇到與過去類似的情況時,它會允許先前學習的信息影響當前策略。實際上,情景記憶允許系統識別先前遇到的任務,並檢索存儲的解決方案。

通過模擬「強盜決策」任務和導航任務,Ritter 等人發現episodic meta-RL,就像普通的meta-RL一樣,學習強歸納偏置,從而使其能夠快速解決新任務。更重要的是,當遇到過去類似的任務時,episodic meta-RL會立即檢索並恢復之前生成的解決方案,從而無需重新學習。在第一次遇到新任務時,系統速度受益於meta-RL的快速性; 在其後遇到新任務時,系統速度受益於情景控制所賦予的一次性學習能力。

對神經科學和心理學的啟示

正如我們在文章開始時所看到的那樣,人們因為採樣效率低下的問題而質疑deep RL與人類或其他動物學習的相似性。從心理學和神經科學的角度來看,episodic deep RL和meta-RL的一個重要含義是它們通過展示deep RL實際上速度不慢,從而消除了這種質疑。本文在一定程度上認為,deep RL是可以作為人類和動物學習的候選模型的。然而,除了這一點之外,episodic deep RL和meta-RL的細節也指向了心理學和神經科學中一些有趣的新假說。

首先是episodic deep RL。我們已經注意到它與經典的基於實例學習的人類記憶模型之間的有趣聯繫。Episodic RL為基於實例的處理如何促進獎勵驅動學習提供了一個可能的解釋。有趣的是,最近關於動物和人類增強學習的研究越來越認可情景記憶的潛在貢獻,有證據表明狀態和行動價值的估計是基於對特定的過去行動 - 結果觀察的檢索記憶。

再說meta-RL,它對心理學和神經科學也有值得注意的潛在影響。有研究提出了從meta-RL的元素到神經結構和功能的直接映射。一系列計算機模擬表明, meta-RL可以解釋行為和神經生理學中的各種實證研究結果。

快速和慢速RL:更廣泛的意義

在討論episodic RL和meta-RL時,我們強調了「慢速」學習在實現快速、高採樣效率的學習方面的作用。在meta-RL中,正如我們所看到的,緩慢且基於權重學習的作用是建立歸納偏置,這可以用於指導推理,從而快速適應新任務。而episodic RL的緩慢增量學習也是類似的。Episodic RL本質上依賴於對情景或狀態之間相似性的判斷。緩慢的學習形成了狀態的內部表示方式,從而產生了一系列關於哪些狀態最密切相關的歸納偏置。

如果更仔細地觀察episodic RL,可以看出歸納偏置是學習架構的一部分。episodic RL有一種平滑原則的假設:類似的狀態通常會產生類似的動作。這種歸納偏置不是用於學習,而是連接到定義episodic RL的學習系統結構中。在當前的AI術語中,這屬於「架構」或「演算法偏置」等情況,與meta-RL 中的「學習偏置」不同。

無論是通過學習還是通過直接手工設計架構或演算法偏置來實現,目前的人工智慧研究主要集中在尋找有用的歸納偏置以加快學習速度。實際上,後一種方法本身就是當前人工智慧神經網路理論復甦的主要原因。卷積神經網路引發了這種復甦,它構建了一種與圖像識別中的平移不變性相關的非常特定的結構偏置。然而,在過去幾年中,越來越多的人工智慧研究或多或少地集中在歸納偏置問題上。

站在更高的層次來看,這些技術的發展與心理學中一些長期存在的問題極為相似。正如我們已經指出的那樣,歸納偏置可能通過學習獲得的想法最初源於心理學,並且不時在心理學研究中被人們提到。然而,神經網路中的元學習可以提供新的應用場景來探索這種學習如何學習過程的機制和原因,尤其是在RL環境中。

心理學,特別是發展心理學,長期以來也一直認為人類存在某種內在固有的歸納偏置。然而,架構偏置的概念以及神經網路學習演算法的內置偏置的概念還未得到廣泛認同。目前深度學習和深度增強學習的方法都提供了一個研究工具,可能有助於心理學領域的進一步探索。

值得注意的是,雖然人工智慧將通過學習獲得的歸納偏置和手工「加入」的偏置做了明確區分,但在生物學背景下,兩者也有更一般的共性。具體而言,人們可以將架構和演算法偏置視為由進化驅動的不同學習過程產生的。在這裡,進化是一種「緩慢」的學習過程,逐漸形成架構和演算法偏置,從而加快終身學習速度。因此,元學習不僅在一個生命周期內發揮作用,而且在進化中也發揮作用。有趣的是,這種觀點意味著進化不會選擇真正的「通用」學習演算法,而是選擇那些利用大腦進化的特定環境中的規律性的演算法。最近的機器學習更多地深入研究構建agent體系結構的方法,以及通過自然選擇的進化演算法構建獎勵函數,這些新發展再次證明其在探索神經科學和心理學方面的意義。

結束語

deep RL研究領域的快速發展對心理學和神經科學具有極大的意義,因為它集中關注代表性學習和目標導向行為。在本文中,我們描述了最新的deep RL形式,它克服了採樣效率低下的明顯問題,允許deep RL 「快速」工作。這些技術不僅強化了deep RL對心理學和神經科學的潛在聯繫,而且它們通過情景記憶和元學習等使這些潛在聯繫更加豐富多樣。此外,deep RL的研究越來越多地為心理學和神經科學的新研究給出具體詳細的指導。

正如我們所強調的那樣,有關高效採樣deep RL最新研究的關鍵意義在於,要快速學習,就必然依賴於慢速學習,這種慢速學習建立了快速學習的表徵和歸納偏置。這樣的計算辯證法為研究大腦中多個記憶系統及其進化起源提供了理論框架。然而,除了本文中討論的那些,人類學習可能涉及多個交互過程,因此我們認為任何deep RL模型都需要整合所有這些才能更接近真實的人類學習。在更廣泛的層面上,理解RL中快速和慢速之間的關係為心理學和神經科學提供了令人信服的依據。實際上,這可能是人工智慧、神經科學和心理學協同作用的關鍵領域,一直以來都是認知科學所追求的。

更多精彩,敬請關注矽谷洞察官方網站(http://www.svinsight.com)

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 矽谷密探 的精彩文章:

科學家正探尋使用CRISPR技術治療「泡沫男孩」的可能性 |矽谷洞察
能直接換聲的 AI、高空墜落機器人...伯克利正在孵化些什麼企業?

TAG:矽谷密探 |