DeepMind最新Nature論文：探索人類行為中的強化學習機制

新聞 09-04

人類和其他動物在不斷變化的環境中適時適機進行決策，底層的演算法機制是什麼？

新智元報道

來源：DeepMind

作者：趙以文

【新智元導讀】DeepMind與來自普林斯頓、NYU、達特茅斯學院、UCL和哈佛大學的研究人員合作，探索了人類行為中的強化學習，為開發智能體強化學習提供了新的策略。研究人員具體探討了一種存在於無模型和基於模型的學習演算法之間的方法，基於後繼表示（successor representation，SR），將長期狀態預測存入緩存中。作者預計，這些發現將為計算科學、電生理學和神經影像學研究開闢新的途徑去研究評估機制的神經基礎。相關論文《The successor representation in human reinforcement learning》日前在Nature子刊《自然-人類行為》上發表。

人類和其他動物在不斷變化的環境中適時適機進行決策，這底層的演算法是什麼？發現其中的機制對於完成序列決策（比如國際象棋和迷宮導航）尤其重要。

過去20年，大部分致力於解決多步驟問題的研究，都關注強化學習（RL）的兩類演算法，即無模型（MF）和基於模型的（MB）演算法。

MF和BM都將決策形式化為長期獎勵預期與不同的候選行動之間的關係，但在表示（representation）和計算方面卻不盡相同。

突1：無模型、基於模型和基於後繼表示的學習演算法在表示、計算和行為上的特點對比。來源：論文

MF vs. MB兩者的對立使人產生了這樣一種觀點，那就是在決策的速度和準確性之間有明顯的tradeoff：MF將預計算長期行動值直接存儲起來，而MB演算法則更加靈活，會通過對短期環境的建模來重估行動值，但這樣對計算力有更大需求。

長期以來，由於這種速度和精度之間的tradeoff，人們一直以為要實現自主化、仔細思考（deliberation）和控制，需要消耗很多計算資源。同時，MF也被視為適應不良習慣和強迫行為（比如吸毒）的原因。

儘管有實驗證明人類和其他動物在某些情況下的決策能夠徹底打敗MF選擇，但極少有證據表明人類大腦是如何進行MB重計算的，甚至人類大腦究竟有沒有進行MB重計算。

實際上，在MF和MB之間完全可以有其他的計算路徑（shotcut）來合理解釋很多現有的實驗結果。

為此，普林斯頓、NYU、達特茅斯學院、DeepMind兼UCL以及哈佛大學的研究人員，設計了兩項實驗，探索了大腦決策時是否使用了存在於MF和MB之間的演算法，以及這種演算法與MF、MB之間的異同。相關論文《The successor representation in human reinforcement learning》日前在Nature子刊《自然-人類行為》上發表。

研究人員發現，人類決策時確實會用到MF和MB之間的中間演算法。他們在論文中具體研究了其中的一類重要演算法，基於後繼表示（successor representation，SR），將長期狀態預測存入緩存中。作者預計，這些發現將為計算科學、電生理學和神經影像學研究開闢新的途徑去研究評估機制的神經基礎。

具體說，研究人員通過實驗設計，區分使用SR和MB的計算，重點關注人類是否存儲了有關未來狀態的長期預期。結果發現，MF策略不存儲狀態的任何表示，並且在決策時也不計算狀態表示（參見圖1和圖2）。另一方面，MB策略存儲並且會檢索一步表示（one-step representations），因此決策時間的計算需求會更高。然而，SR緩存了一個多步驟轉換的「粗略映射」到智能體以後期望訪問的狀態。在決策時使用這些緩存的表示，SR在獎勵重估中做出了比MF更好的決策，但不能解決轉移重估，而MB在所有重新估值方面都做得一樣好。另一種可能性是將SR與其他策略相結合，也即論文中所說的「混合SR策略」。混合SR策略可以將半計算的軌跡粗略表示與MB表示或重放相結合。

圖2.在獎勵和轉換重估測試中，模型預測和檢索到表示的原理圖

所有混合SR策略將比轉換重估的純SR策略更好（但比MB差）。具體來說，相比預測過渡重估，混合SR策略在預測獎勵重估時準確性更高，反應時間更快。MF或MB都的預測性能都沒有展現出這樣的不對稱性。

作者通過兩項研究實驗測試並確認了他們的猜測，為人類行為中的強化學習里的SR提供了第一個直接證據。

摘要

神經科學中強化學習的理論側重於兩個演算法族。無模型演算法將行動值存入緩存，這樣做雖然便宜但不靈活：因此，無模型演算法是自適應習慣和適應不良習慣的候選機制。另一方面，基於模型的演算法通過從環境模型中重建行動值來實現計算成本的靈活性。我們研究了一類中間演算法，後繼表示（successor representation，SR），緩存長期狀態預期，將無模型的效率和基於模型的靈活性相結合。雖然以前關於獎勵重估的研究將無模型演算法與基於模型的學習演算法區分開來，但這種設計不能區分基於模型和基於SR的演算法，後兩種都預測了獎勵重估的敏感度。然而，改變過渡結構（「過渡重估」）應該有選擇性地損害SR的重估。在兩項研究中，我們提供的證據表明，人類對獎勵重估與過渡重估的差異敏感度與SR預測一致。這些結果為一種新的靈活選擇神經計算（neuro-computational）機制提供了支撐，同時為習慣引入了更細微，更認知的看法。

很學術的論文，但推薦閱讀：

Nature 論文地址（非公開發表）：https://www.nature.com/articles/s41562-017-0180-8

Bio-arXiv 地址：http://www.biorxiv.org/content/biorxiv/early/2016/10/27/083824.full.pdf

【號外】新智元正在進行新一輪招聘，飛往智能宇宙的最美飛船，還有N個座位

點擊閱讀原文可查看職位詳情，期待你的加入~

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

TAG:新智元 |