當前位置:
首頁 > 最新 > DeepMind用基於AI的元強化學習框架研究多巴胺在學習過程中的作用

DeepMind用基於AI的元強化學習框架研究多巴胺在學習過程中的作用

AiTechYun

編輯:chux

最近,AI已經應用到一系列視頻遊戲中,如Atari經典的Breakout和Pong。儘管這樣的表現令人印象深刻,但人工智慧仍然依靠數千小時的遊戲時間來達到並超越人類玩家的表現。相比之下,人類玩家通常可以在幾分鐘內粗淺掌握以前從未玩過的視頻遊戲。

為什麼大腦能夠做得更多這樣的問題已經引起了元學習理論,即「學會學習(learning to learn)」的關注。這一理論認為研究者在兩個時間尺度上學習:在短期內,專註於學習具體的例子,而在更長的時間尺度上,學習完成任務所需的抽象技能或規則。正是這種組合有助於高效地學習,並將這些知識快速靈活地應用於新任務。在人工智慧系統中重新創建這種元學習結構,即稱為元強化學習,在促進智能體快速,一次性學習方面卓有成效。然而,允許這個過程在大腦中發生的具體機制在神經科學中仍然無法解釋。

在Nature Neuroscience的新論文中,研究者使用AI研究中開發的元強化學習框架來研究多巴胺在幫助研究者學習中對大腦的作用。多巴胺通常被稱為大腦的快樂信號,與AI強化學習演算法中使用的獎勵預測誤差信號類似。這些系統學會按照獎勵的指導進行反覆試驗。研究者指出多巴胺的作用不僅僅是利用獎勵來了解過去行為的價值,它在前額葉皮層區發揮著不可或缺的作用,使研究者能夠有效,快速,靈活地學習新任務。

研究者通過虛擬重建神經科學領域的六個元學習實驗來測試研究者的理論,其中,每個實驗都需要一個智能體執行基礎原則(或一組技能)相同但某些維度不同的任務。研究者使用標準深度強化學習技術(代表多巴胺的作用)訓練了一個遞歸神經網路(代表前額皮質),然後比較了複發網路的活動動態與從以前神經科學實驗中發現的實際數據。遞歸神經網路適用於元學習,因為它們能夠內化過去的行為和觀察,然後在訓練時借鑒這些經驗。

研究者重新創建的實驗被稱為Harlow實驗,這是一個20世紀40年代的心理學測試,用於探索元學習的概念。在最初的測試中,給一組猴子兩個不熟悉的物體以供選擇,其中一個物體會有食物獎勵。他們將這兩個對象顯示六次,每次放置都是隨機的,所以猴子必須知道選擇哪個對象才會有食物獎勵。然後展示了兩個全新的物品,再次只有一個會有食物獎勵。在這次訓練過程中,猴子制定了一種策略來選擇獎勵關聯對象:第一次隨機選擇,然後基於獎勵反饋選擇特定對象,而不是通過左側或右側位置來選擇。

當研究者使用虛擬計算機屏幕和隨機選擇的圖像模擬一個非常相似的測試時,研究者發現研究者的元學習RL智能體似乎以類似於Harlow實驗中的動物的方式學習,即使呈現的是從未出現過的全新圖像。

事實上,研究者發現元學習RL智能體可以學習如何快速適應不同規則和結構的任務。而且由於網路學會了如何適應各種任務,它還學習了關於如何有效學習的一般原則。

重要的是,研究者發現大多數學習在遞歸神經網路中發生,這支持了研究者的猜想,即多巴胺在元學習過程中扮演的角色比過去認為的更重要。多巴胺傳統上被理解為加強前額系統中的突觸聯繫,從而加強特定的行為。在AI中,這意味著類多巴胺獎勵信號在神經網路中調整人工突觸權重,因為它學習了解決任務的正確方法。然而,在研究者的實驗中,神經網路的權重被凍結,這意味著它們在學習過程中不能被調整,然而,元學習RL智能體仍然能夠解決並適應新的任務。這表明研究者多巴胺獎勵不僅用於調整權重,也傳達和編碼關於抽象任務和規則結構的重要信息,並更快適應新任務。

神經科學家長期觀察到類似的前額葉皮層神經激活模式,這種模式適應快且靈活,科學家也一直在努力尋找能夠解釋這種情況的原因。前額葉皮層不依賴緩慢突觸體重變化來學習規則結構,但是使用直接由多巴胺編碼的基於抽象模型的信息,這一想法為其多功能性提供了更令人滿意的理由。

在證明AI中存在元強化學習的關鍵成分也存在於大腦中這一假說時,研究者提出了一種理論,該理論不僅與已知的關於多巴胺和前額皮層的那些信息相符,而且還解釋了一系列神經科學和心理學的研究發現。尤其該理論為一些問題提供了新的線索,例如大腦如何結構化,基於模型的學習是如何出現的,為什麼多巴胺本身含有基於模型的信息,以及前額葉皮質中的神經元如何調整為與學習相關的信號。利用人工智慧的見解,可以用來解釋神經科學和心理學的發現。展望未來,我們預期從反方向獲益,通過設計新的強化學習智能體學習模型,從特定的大腦迴路中得到啟發。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 ATYUN訂閱號 的精彩文章:

密歇根大學研究者致力於用AI實時識別驗證ID證件

TAG:ATYUN訂閱號 |