Uber AI論文：反向傳播訓練可塑神經網路，生物啟發元學習範式

新聞 04-19

怎樣才能得到經過初始訓練後就可以利用經驗持續快速高效學習的智能體呢？Uber AI 近日研究表明，如同深度神經網路的連接權重，神經可塑性也可以通過梯度下降來優化。在模式記憶、圖像重建和強化學習任務上，該方法得到了超越傳統非可塑網路的表現，表明可微可塑性有望為元學習問題提供新的高效方法。

介紹：關於「學會學習（元學習）」的問題

最近的機器學習方向的成果很多都是利用大量訓練數據進行大量訓練，來學習單一複雜的問題（Krizhevsky et al., 2012; Mnih et al., 2015; Silver et al., 2016）。當學習完成之後，智能體的知識就固定不變了；如果這個智能體被用於其他的任務，那麼它需要重新訓練（要麼完全重來，要麼部分重新訓練），而這又需要大量新的訓練數據。相比較之下，生物智能體具備一種出色的能力，這個能力使它們快速高效地學習持續性經驗：動物可以學會找到食物源並且記下（最快到達食物源的路徑）食物源的位置，發現並記住好的或者不好的新事物或者新場景，等等——而這些往往只需要一次親身經歷就能完成。

賦予人工智慧體終身學習的能力，對於它們掌控具有變化不可測特徵的環境或是訓練時未知特定特徵的環境至關重要。例如，深度神經網路的監督學習能讓神經網路從它訓練時使用的特定、固定的字母表中識別字母；然而，自主性的學習能力能使智能體獲取任何字母表的知識，包括人類設計者在訓練時不知道的字母表。

自主性學習能力還有一個好處，那就是能讓智能體在處理許多任務的時候（例如物體識別、迷宮尋徑等等），存儲任務中固定不變的結構到自己的固定知識部分中，而只從具體情況中學習剩下可能的變數。這樣處理的結果是，學習一個當前的特定任務實例（也就是一般任務的多個實例間確實存在差異的實際潛在變數）會變得非常快，只需要少量甚至單個環境經歷。

許多元學習方法已被運用於訓練智能體的自主性學習。然而，不像現在的一些方法，生物大腦的長期學習被認為主要是通過突觸可塑性來完成的——突觸可塑性是神經元間連接的加強或減弱，它是神經活動造成的，經過百萬年的進化，它能使擁有它的個體高效地學習。神經可塑性存在許多種構造，它們中很大一部分都遵循稱為「赫布定律」的原則：如果一個神經元不停地激活另一個神經元，那麼它們間的聯繫會加強（這個定律通常被總結為「一起激活的神經元被連接到一起」）（赫佈於 1949 年提出）。這一原則是動物大腦里觀察到的幾種可塑性形式的基礎，這使它們能從經驗中學習並適應環境。

此前一直都有人研究在進化演算法中利用可塑性連接來設計神經網路（Soltoggio et al. 2017），但是在深度學習方面的研究相對較少。然而，考慮到為複雜任務設計傳統非可塑性神經網路時得到的不錯的梯度下降結果，將反向傳播訓練運用到具有可塑性連接的網路是非常有意義的——通過梯度下降不僅能優化基礎權重，還能優化每個連接的可塑性量。研究者之前論證過這個方法的理論可行性和分析易行性（Miconi, 2016）。

本研究表明，該方法確實可以成功為非平凡任務訓練大型網路（數百萬的參數）。為了演示該方法，作者將其應用到三個不同類型的任務：複雜模式記憶（包括自然圖像）、單樣本分類（Omniglot 數據集）和強化學習（迷宮探索問題）。結果表明，可塑性網路在 Omniglot 數據集上得到了有競爭力的結果，並展現了它對迷宮探索問題的性能優化，以及它在複雜模式記憶的問題中優於非可塑性循環網路（LSTM）幾個數量級的表現。這個結果不僅有利於尋找基於梯度的神經網路訓練的新研究途徑，同時也說明之前歸因於進化或者先驗設計的神經結構元屬性實際上也是可以用梯度下降處理的，這也暗示仍然存在很大一部分我們之前沒有想到過的元學習演算法。