當前位置:
首頁 > 科技 > DeepMind發Nature子刊:通過元強化學習重新理解多巴胺

DeepMind發Nature子刊:通過元強化學習重新理解多巴胺

Root 編譯整理

量子位 出品 | 公眾號 QbitAI

比起人類,深度學習演算法已經在很多任務上的表現更優秀。但它們的學習效率很低。

DeepMind認為,這可能是人類的元學習能力佔了優勢。

據昨天DeepMind在Nature Neuroscience刊出的新論文Prefrontal cortex as a meta-reinforcement learning system指出,人類之所以能非常快地掌握新事物,原因可能是能從以往的經歷中提取出規律,這種能力稱為元學習。

不過元學習的底層機制一直是個謎。

為了研究元學習的機制,DeepMind團隊採用循環神經網路對人類心理建模,從過去訓練過程中的動作和觀察抽象出規律然後內化。

研究結果發現,元強化學習agent能夠靈活地在多任務之間切換,這說明agent已經學會了怎麼學習。

更重要的是,DeepMind團隊發現大部分的學習發生在循環神經網路中。

這說明多巴胺不僅僅是傳統學說認為的增強突觸強化相應行為那麼簡單,還在元學習過程中起著統籌的作用(more integral role)

按以往的認知,多巴胺只是增強前額皮質中突觸的連接,從而加強某種行為。但在權重固定的情況下,神經網路在不同的任務之間依然有相同的表現。這說明多巴胺還能傳遞、編碼任務和規律的信息。

神經網路的獎勵預測誤差,類似於我們人腦中的多巴胺,是一種信號:每運行一次,演算法在數據上的表現就得到一次優化。

多巴胺可以影響我們人的心情,行為,感知,痛苦和快樂,對於學習過程來說,是一種非常重要的神經遞質。

DeepMind團隊用神經網路復現了6個神經學上的元學習實驗,然後和動物實驗的表現進行比較。

其中一個實驗,源自上世紀四十年代一個探究元學習概念的心理學實驗,叫Harlow實驗。

用神經網路再現Harlow實驗

最初的實驗設計,是在一組猴子面前擺兩個它們沒見過的東西,猴子撿起其中一個後可以獲得食物獎勵。然後隨機調換物品的位置,再讓猴子選。如此重複6次之後,換上新的兩個物品。獎勵規則一樣,猴子選中其中一個才有食物。

經過訓練之後,猴子學會了食物獎勵只和特定的某種東西有關,而與東西擺放的位置無關。這個實驗結果說明,猴子是可以掌握任務的底層規則的,換句話說就是,能學會如何學習。

給神經網路的實驗設計也類似,給它們看兩張從來沒有見過的圖,獎勵與圖片綁定。

DeepMind的神經網路在做Harlow實驗

DeepMind團隊在官方博客里談到,「人類要有很強的學習能力,掌握到多變事物的規律,不可能僅依賴突觸增強這種長期慢性的改變。這暗示著多巴胺很可能有能力抽象出模塊化的信息。

不過,這不是科學家首次用AI模擬人腦。

荷蘭內梅亨大學就用循環神經網路預測出了人腦處理感知信息的過程,特別是視覺刺激。但DeepMind官博認為,大體來講這些發現對機器學習領域有更大的啟發,對神經生物學倒沒起到什麼推進的作用。

去年,DeepMind針對人腦的部分解剖結構建模,用神經網路模仿前額皮質的活動以及海馬的記憶。結果得到了一個強於大多數網路的AI。最近,DeepMind把研究重心轉移到了理性機制上,造了一個合成的神經網路,可進行邏輯推演以及解決問題。

通過這個多巴胺的研究,論文的作者稱,醫學界終於可以從神經網路研究中有所收穫和啟發了。

從AI里獲得對神經生物學界有啟發的認知洞見,這兩個學科之間的互哺非常可貴。希望隨著AI研究的深入,對人腦的運作機制有更多的了解,進一步設計出學習能力更強大的智能體。

最後,附論文地址:

https://www.biorxiv.org/content/biorxiv/early/2018/04/06/295964.full.pdf

加入社群

量子位AI社群16群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot6入群;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進群請加小助手微信號qbitbot6,並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

豐田要建專屬自動駕駛測試場,再也不用共享了
亞馬遜發力智能音箱商業模式,Alexa正式支持付費第三方應用

TAG:量子位 |