李飛飛最新論文解讀：構建嬰兒學習能力的計算模型

新聞 02-26

新智元專欄

作者：張浩（雲南大學）

編輯：劉小芹

【新智元導讀】斯坦福大學李飛飛等發表最新論文，試圖通過實現好奇心驅動的內在動機的神經網路來複制嬰兒的一些能力。研究者設計了一個簡單的模擬環境，agent在其中學習預測其行為結果的世界模型，這可能解釋嬰兒學習的關鍵特徵。

對於玩耍，嬰兒是專家。在缺乏明確的外部獎勵信號的非結構化環境中，嬰兒具有產生新的結構化行為的驚人能力。近日，李飛飛等發表的最新論文，試圖通過實現好奇心驅動的內在動機的神經網路來複制嬰兒的一些能力。

通過使用一個簡單但生態自然的模擬環境，agent可以移動並與它所看到的物體互動，agent將學習一個預測其行為的動態結果的世界模型（world model）。同時，agent還學會了對發展中的世界模型採取對抗地挑戰它的行動，這促進了該agent探索環境，並與之進行新的、更豐富的交互。文章證明這種策略導致了一系列複雜的自我監督行為的出現，包括自我運動預測、對象注意（object attention）和對象聚集（object gathering）。

此外，agent學習的世界模型支持提高對象動態預測和本地化任務的性能。該模型的內在動機計算模型可能解釋嬰兒發展性視覺運動學習的關鍵特徵。

由好奇心驅動的內在動機的計算模型

在嬰兒時期，人類表現出一系列有趣的、自發的視覺運動行為，包括在環境中進行導航、尋找和注視物體等等，在遊戲方面尤其表現出色。他們對環境的理解和（重新）構造的能力使他們與最先進的自主機器人不同。這個時期的遊戲能力可能與嬰兒強大的理解和模擬環境的能力相互作用。

好奇心的內在動機本身可以推動世界模型的發展。這個想法依賴於一個良性循環，在這個循環中，通過尋求新穎但可複製的相互作用，這個嬰兒推動了他的世界模型預測系統能夠實現的界限，為改進和開發這些系統提供了有用的數據。

基於最近在人工智慧方面的工作，文章建立了一個由好奇心驅動的內在動機（curiosity-based intrinsic motivation）的計算模型。我們提出了一個簡單的模擬互動式環境，在這個環境中，一個agent可以在它看到的物體上移動和進行物理操作（圖1）。

文章接著描述了一個神經網路架構，通過這個架構，agent學習一個旨在預測其行為後果的世界模型。另外，當agent優化其世界模型的準確性時，一個單獨的神經網路同時學習agent的行動策略，該策略旨在採取行動來對抗挑戰其世界模型當前的狀態。

文章證明，這個架構穩定地參與了上述的良性強化學習循環，自發地學習理解自我生成的自我運動，並有選擇地關注、定位對象和與之交互，而不需要內置任何這些概念。

agent架構與環境

文章將agent放置在Unity 3D模擬框架中構建的物理逼真模擬環境中。agent由世界模型和損失模型組成。世界模型的任務是學會動態的視覺輸入。損失模型試圖估計世界模型的損失，在接下來的幾個步驟中選擇行為對抗世界模型。自我監督好奇心系統如圖2所示，模型沒有用預訓練的權重初始化，這樣以便探索模型在物理體現的環境中的真實體現。

交互環境

環境是一個簡單的方形房間，包含一個agent和幾個對象，開始都是隨機放置的。agent被建模為一個不可見的球體，可以四處移動，並以離散的時間步長從前方接收RGB圖像。為了方便對需要一些注意力和接近度的對象進行交互建模，agent可以將所有三維空間中的力和力矩應用於既在視圖中的對象。

定義狀態空間中的一個狀態，由agent在t-1到t時刻捕獲的圖像組成。在狀態中，agent在處發出一個動作，這個動作將影響下一個狀態。動作空間是連續的。前2個維度指定自我運動，限制agent向前/向後運動的運動和水平平面旋轉。剩餘的6N維度指定施加到相對於agent的視野從較低的最左邊到最右邊的對象排序的N個對象的力和轉矩。

World model

給定一段歷史

，用輸入映射ξ：HX和真值映射η：HY來描述廣義動力學問題，並且要求世界模型（圖2中的藍色部分）映射ξ（h）到η（h）。令ω表示這個世界模型，使得

。對於每個預測，產生損失為

。理論上，預測會產生一個有吸引力的動力學問題，其中，

，

。

在實踐中，我們發現逆動力學預測很有用，可以填補一個缺失的行為。文章採用隨機梯度下降訓練卷積神經網路，隨機初始化參數φ。模型使用12個卷積層，每隔一層使用stride=2的最大池。

Loss model

agent的目標是對抗世界模式，所以如果它能夠預測下一步選擇所帶來的損失，就可以制定一項策略。在實踐中採用預測損失離散化以方便訓練。給定和擬議的下一個動作a，損失模型Λ（圖2中的紅色）預測世界模型損失概率分布。它受到softmax交叉熵損失的約束。我們使用一個單獨的帶參數ψ的卷積神經網路，包含12個卷積層每隔一層帶有stride=2的最大池層，一個隱含層用於編碼狀態，然後與動作進行級聯。

值得注意的是，損失不僅取決於世界模型的狀態，還取決於未來採取的行動，因此損失模型需要預測未來策略。如圖4所示，在給定當前狀態的情況下，損失預測有效地解釋為行動空間上的損失預測圖。

Action policy

基於於損失預測模型，agent可以使用簡單的機制來選擇其行為。根據損失模型，給定狀態和擬議的下一個動作a，T的概率分布，。基於T概率分布，可以將策略定義為分布，β為超參數，實際上，我們通過對A中的K個均勻隨機樣本評估σ來執行策略。一個概率與方程（1）成正比的K-中離散分布，在選擇這個策略機制時，我們選擇從一個簡單的方法開始，使用更複雜的強化學習標準來著重研究自我監督信號。這個階段可以明確地預測未來幾個時間段的損失，實驗結果容易實現可視化，並做出合理的解釋。

觀察和結論

我們觀察到，基於對抗動態構建的世界模型的損失的一種簡單、普遍的內在動機機制允許agent穩定地產生一系列自然的行為。通過在主動學習過程中進行自我課程設置，該agent在學習「玩耍」時實現了幾個適當增加複雜性的「發展里程碑」。

從隨機動作開始，它很快地學習了自我運動的動態。然後，在沒有給出關於對象的存在或位置的明確的監督信號的情況下，它就會拋棄自我運動預測，並開始將注意力集中在更有趣的對象上。最後，當有多個對象可用時，它會收集這些對象以便將它們帶入彼此的交互範圍。在整個過程中，agent找到了一種更具挑戰性的數據分發方式，在每個時刻都很難使agent暴露在新的情況下，但該方式仍可以被該agent所理解和利用。這種內在的動機策略導致了對對象動態的理解、以及系統未明確學習的其他任務的性能提升。

這是在沒有任何預訓練的visual backbone的情況下發生的——視覺系統世界模型故意沒有在（例如）ImageNet分類上預訓練的濾波器權重進行初始化。

從機器學習的角度來看，這種自發行為的結合引向了一種改進的世界模型，這很適合於設計必須在真實的強化學習場景中有效地行動的agent，在這些場景中，獎勵是稀疏的，或者可能是未知的。在這裡，我們最終尋求開發能夠控制自主機器人的演算法，這些機器人可以學習在複雜的不可預測的環境中工作。從認知科學的角度來看，這些結果表明了一種利用內在動機的學習系統來模擬嬰兒自發行為的途徑。在這個領域，我們試圖建立能夠描述嬰兒學習的關鍵方面的計算模型。

論文地址：https://arxiv.org/pdf/1802.07461.pdf

【2018新智元AI技術峰會重磅開啟，瘋狂搶票中！】早鳥票3折搶票倒計時5天開搶

2017年，作為人工智慧領域最具影響力的產業服務平台——新智元成功舉辦了「新智元開源·生態技術峰會」和「2017AIWORLD 世界人工智慧大會」。憑藉超高活動人氣及行業影響力，獲得2017年度活動行「年度最具影響力主辦方」獎項。

其中「2017AIWORLD 世界人工智慧大會」創人工智慧領域活動先河，參會人次超5000；開場視頻在騰訊視頻點播量超100萬；新華網圖文直播超1200萬；

2018年的3月29日，新智元再匯AI之力，共築產業躍遷之路。在北京舉辦2018年中國AI開年盛典——2018新智元AI技術峰會，本次峰會以「產業·躍遷」為主題，特邀諾貝爾獎評委德國人工智慧研究中心創始人兼CEO Wolfgang Wahlster 親臨現場與谷歌、微軟、亞馬遜、BAT、科大訊飛、京東和華為等企業重量級嘉賓，共同研討技術變革，助力領域融合發展。

新智元誠摯邀請關心人工智慧行業發展的各界人士 3 月 29 日親臨峰會現場，共同參與這一跨領域的思維碰撞。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※黑客偷襲特斯拉AWS挖礦，特斯拉改裝用超級充電站挖礦
※谷歌遙遙領先，中國專家總數世界第二

TAG:新智元 |