當前位置:
首頁 > 最新 > 讓機器思考與互相理解:DeepMind提出機器心智理論神經網路ToMnet

讓機器思考與互相理解:DeepMind提出機器心智理論神經網路ToMnet

選自arXiv

作者:Neil C. Rabinowitz等

機器之心編譯

AI 不僅需要判斷,也需要具備思考問題的能力。真正的人工智慧應該和人類一樣,可以理解自己以及周圍智能體的心理狀態,這些狀態包括情緒、新年、意圖、慾望、假裝與知識等。DeepMind 近日提出的「機器心智理論」神經網路 ToMnet 讓計算機擁有了這種能力,這或許是我們在人工智慧技術上的一次重要進步。

簡介

對於現在所有的深度學習和深度強化學習方法而言,我們有一個擔憂的問題:從某些方面來說,我們對這些系統的理解非常有限。神經網路經常被說成是難以理解、難以解釋的黑箱子。即使我們對其權重有完整的解釋,還是很難掌控它們到底利用了什麼模式,也很難掌控哪裡會出問題。隨著智能體進入人類世界,要求理解這些系統的聲音變得越來越大。

讓我們先停下來,思考另一個問題:「理解」另一個智能體到底意味著什麼?作為人類,我們每天都在面臨這項挑戰,我們與他人交流合作,但幾乎無法觸及這些人的內隱特徵、內隱狀態和計算過程。但我們還是用卓越的熟練度來行使職責。我們可以預測陌生人將來的行為,並且推斷他們對世界的觀點;我們規劃與其他人的互動,並且建立高效的交流。

能夠「理解」其他智能體的一個顯著特徵是極少甚至不引用智能體真正的基礎構架。我們沒有試圖去預測其他神經的活動,推斷他們的前額皮質的連通性,或者計劃與一個非常詳細的其他人的海馬體圖的預測的交互。從認知心理學延伸出的一個突出的討論是我們的社會推理(social reasoning)並不是依賴於其他媒介的高層次的模型(Gopnik & Wellman, 1992)。這些模型用了一些沒法解釋表面現象背後原理的抽象概念;相反,我們表示了其他人的精神狀態,比如他們的慾望、信仰和意圖。這個能力一般被解釋成我們的心智理論(Premack & Woodruff, 1978)。在一些案例中我們也讓自己的意識來模仿其他人(比如 Gordon, 1986; Gallese & Goldman, 1998),我們對其智能體的終極理解並不是從把我們的模型與真理一一對應從而測量出來的,而是從這些模型會對比如說預測或者計劃這種任務付出多少來決定(Dennett, 1991)。

在這篇文章里,來自 DeepMind 的研究人員受到了人類心智理論的啟發,試圖建立一個模擬其他介質的模型。我們把這個描述成機器心智理論。我們的目標不是去確保生成一個介質行為與內含轉化的演算法的模型。與之相反,我們專註於一個觀察者怎樣能自動的學習怎樣利用有限數據模擬其他介質的模型(Botvinick et al., 2017)。正是這一點讓 DeepMind 的新研究有別於前人方向,也就是那些依賴於用其他介質手工製造的模型作為有雜訊的對比對象。--比如用反向阻耗(Ng et al., 2000; Abbeel & Ng, 2004),貝葉斯推理(Lucas et al., 2014; Evans et al., 2016),貝葉斯心智理論(Baker et al., 2011; Jara-Ettinger et al., 2016; Baker et al., 2017)或者博弈論(Camerer et al., 2004; Yoshida et al., 2008; Camerer, 2010; Lanctot et al., 2017)。與以上研究不同,我們學習了代理模型,然後學習了怎樣從通過元學習從頭推理它們。

建立一個豐富的,靈活的而且高效績的機器心智理論也許是一個大挑戰。我們沒有試著去在這裡解決所有問題。一個主要的信息是當這些問題被正確表述的時候,很多初始的,建立機器心智理論(ToM)的挑戰可以被分解成簡單的學習問題。我們這裡的工作是找出這些簡單的構想方式。

DeepMind 稱,新研究有很多潛在的應用方向。學習其他的豐富的模型可以提高多智能體任務中的決策,尤其是基於模型的規劃和想像所需要的(Hassabis et al., 2013; Hula et al., 2015; Oliehoek & Amato, 2016)。這樣的模型對於數據校準(HadfieldMenell et al., 2016)和靈活合作(Nowak, 2006; Kleiman-Weiner et al., 2016; Barrett et al., 2017; Kris Cao)是很重要的,並且很有可能是未來機器決策中的道德的重要組成部分(Churchland, 1996)。它們也是對通訊和教育學非常有用的(Dragan et al., 2013; Fisac et al., 2017; Milli et al., 2017),也非常可能在人機交互領域扮演重要角色。探索這些能力之下的條件也可以闡明人類能力的起源(Carey, 2009)。最後,這樣的模型也會是人類理解人造智能體的重要介質。

最後,我們被理解人造智能體這一目標所激勵。這裡我們有一個新奇的方法:除了從結構上改編智能體來把它們的內部狀態以人類理解的形式暴露出來,我們追尋製造可以降低行為空間維度並且能以更易懂的形式表現的中間系統。從這個角度,追求機器心智理論(ToM)是建造缺失的機器與人的期望之間的交互界面(Cohen et al., 1981)。

DeepMind 的新方法

DeepMind 認為,構建心智理論的挑戰本質上在於元學習問題(Schmidhuber et al., 1996; Thrun & Pratt, 1998; Hochreiter et al., 2001; Vilalta & Drissi, 2002)。在測試時,我們希望遇到一個以前沒見過的智能體,並且它們已經對自身的行為方式有一個強大且豐富的先驗知識。此外,在我們看到該智能體在現實中的行動時,我們希望能收集它們的隱藏特性和精神狀態數據(構成後驗知識),這有助於我們預測它們未來的行為。

為此,我們定製了元學習任務。我們構建了一個觀察者,它在每一個 episode 都能訪問一組新型智能體的行為軌跡,觀察者的目標是預測智能體未來的行為。在訓練過程中,觀察者應該從有限數據中快速形成新智能體的的預測。這種新智能體的「學習如何學習」通常可以稱為元學習。通過這個過程,觀察者還應該學習智能體行為的有效先驗知識,這些知識隱含地捕捉了訓練空間中智能體間的共同點。

DeepMind 引入了兩個概念來描述該觀察者網路及其功能角色。我們區分兩個一般心智理論,即網路的預學習權重與特定智能體心智理論。在網路的預學習權重中,它包含了訓練集中所有智能體一般行為的預測。而在特定智能體心智理論中,從單個智能體在測試時的察形成「agent embedding」,它包含了使得智能體的特性和精神狀態區別於其它智能體的內容。這些對應於智能體行為的先驗知識和後驗知識。

本論文的結構是一系列在機器心智理論網路(我們稱之為 ToMnet)的實驗,它們的複雜度是遞增的。這些實驗展示了 ToMnet 背後的思想和能力,並展示了它學習其他智能體豐富模型的能力,其中包含了人類心智理論的典型特徵,如對錯誤信念的認識等。

本論文中的一些實驗直接受到 Baker 及其同事在貝葉斯心智理論研究成果的啟發,例如經典的 food-truck 實驗(Baker et al., 2011; 2017)。由於該項工作的目標不同,我們並沒有試圖直接複製這些實驗。特別的,我們並不是立即利用計算項搜索人類判斷的解釋,而是強調機器學習、可擴展性和自主性。我們將在未來的工作中解釋人類的判斷。我們的實驗應該推廣至許多先前實驗的構造以適應我們的目標。

本研究的主要貢獻包括:

章節 3.1 中,我們展示了對簡單、隨機的智能體而言,ToMnet 能學習逼近貝葉斯優化的層級推理到智能體的特性;

章節 3.2 中,我們展示了 ToMnet 學習推理演算法智能體的目標(有效完成了 few-shot 逆強化學習),以及它們如何平衡成本與獎勵。

章節 3.3 中,我們展示了 ToMnet 學習表示不同類型的深度強化學習智能體,掌握深度強化學習智能體不同變體的關鍵元素,並組成這些智能體的抽象嵌入(abstract embeddings)。我們也展示了 ToMnet 能發現行為空間新的抽象。

章節 3.4 中,我們展示了當在 POMDP 中活動的深度強化學習智能體上訓練 ToMnet 時,它暗中學習到這些智能體能持有該世界的錯誤信念,這也是人類心智理論的核心。

章節 3.5 中,我們展示了能夠訓練 ToMnet 來預測智能體的信念狀態,明確揭開智能體的錯誤信念。我們也展示了 ToMnet 能單獨從行為中推斷什麼智能體具有觀看的能力,以及因此它們傾向於相信什麼。

圖 1. ToMnet 架構。

character net 從 POMDP 集合中解析智能體過去的軌跡,從而形成 character 嵌入 e_char。心理狀態網路解析當前片段的智能體軌跡,形成心理狀態嵌入 e_mental。然後,這些嵌入被輸入至預測網路,可用於查詢當前狀態。預測網路輸出對智能體未來行為的預測,如下一步動作概率 π hat、特定對象被消耗的概率 c hat 和預測後繼者表示 SR hat(Dayan, 1993)。

圖 4. 目標驅動智能體上的 ToMnet。

(a)示例智能體之前的軌跡。彩色方塊代表四個對象。紅色箭頭表示智能體的位置和動作。(b)查詢示例:來自新 MDP 的狀態。黑點代表智能體位置。(c)基於(a)中對之前軌跡的觀測,針對(b)中的查詢 MDP,ToMnet 對智能體下一個動作的預測(上方)和對該片段結束時對象是否被消耗的預測(下方)。(d)ToMnet 使用折扣因子 γ = 0.9,對(b)中查詢的後繼者表示(successor representation,SR)的預測。黑色部分表示更高的期望折扣狀態佔用。

圖 7. 使用 ToMnet 描述訓練的神經網路智能體。

(a)ToMnet 的三個組件分別對應三個行為預測目標,圖中表示簡單 ToMnet 與沒有 character net 或沒有 mental net 的網路的對比。長條越長越好;具備 character net 和 mental net 的網路最好。(b)查詢 POMDP 狀態在時間 t = 0 時,ToMnet 對智能體未來狀態佔用的預測(左),如圖 4d 所示。星星表示子目標。右邊的三幅圖根據每個亞種的示例智能體在 N_past = 5 past POMDPs 上的行為輸出(示例智能體通常指粉色對象)。ToMnet 事先並不了解每個智能體屬於哪個亞種,但是可以根據智能體之前的行為推斷出來。

圖 13. 信念的監督式預測。

論文:Machine Theory of Mind

論文鏈接:https://arxiv.org/abs/1802.07740

摘要:心智理論(ToM; Premack & Woodruff, 1978)廣義上指個體有能力理解他人的心理狀態,包括期望、信念和意圖。我們提出對機器進行訓練,使之也具備這項能力。我們設計了一種心智理論神經網路 ToMnet,它使用元學習通過觀察智能體的行為而對它們進行建模。通過該過程,該網路得到一個對智能體行為具備強大先驗知識的模型,同時能夠利用少量行為觀測對智能體特徵和心理狀態進行更豐富的預測。我們將 ToMnet 應用於在 gridworld 環境中採取動作的智能體,結果表明該網路學會對來自不同群體的智能體進行建模,包括隨機、規則系統和深度強化學習智能體等,該網路通過了經典的 ToM 任務,如"Sally-Anne"測試,即意識到他人持有的錯誤觀念。我們認為該系統(自動學習如何對出現在其世界中的其他智能體進行建模)是開發多智能體 AI 系統的重要步驟,可以幫助構建人機交互的中介技術,推進可解釋性 AI 的發展。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

?------------------------------------------------

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

IBM Watson提出人機推理網路HuMaINs,結合人機兩者優勢
斯坦福完全可解釋深度神經網路:你需要用決策樹搞點事

TAG:機器之心 |