DeepMind提出心智神經網路ToMnet，訓練機器的理解能力

科技 02-25

圖：unsplash

原文來源：arXiv

作者：Neil C. Rabinowitz、Frank Perbet、H. Francis Song、Chiyuan Zhang、S. M. Ali Eslami、Matthew Botvinick

「雷克世界」編譯：嗯~阿童木呀、KABUDA

一般來說，心智理論（ToM，Premack和Woodruff於1978年提出）泛指人類理解自己與他人的心理狀態，包括慾望、信仰和意圖等，並基於此預測和解釋他人行為的能力。我們打算對機器進行訓練從而構建這樣的模型。我們設計了一個心智理論神經網路——ToMnet，它使用元學習（meta-learning），通過對其所遇到的智能體的行為進行單獨觀察，從而構建該智能體模型。通過這個過程，它獲得了一個智能體行為的強有力的先驗模型，以及僅使用少量行為觀察就能夠更加豐富地預測特徵特徵和心理狀態的能力。我們將ToMnet應用於在簡單的gridworld環境中運行的智能體，顯示它學習為來自不同群體的隨機、演算法和深度強化學習智能體進行建模，並且它通過了經典的ToM任務，如「SallyAnne」測試（Wimmer和Perner於1983年、BaronCohen等人於1985年提出），認識到其他人可能持有錯誤的世界觀。我們認為這個系統，即自主學習如何在其世界中對其他的智能體進行建模，是開發多智能體AI系統、構建機器—人機交互的中介技術、推進可解釋性AI發展的重要一步。

就目前而言，雖然在深度學習和深度強化學習領域取得了令人興奮的發展成果，但有些人擔心，我們對這些系統的理解已經落後了。神經網路通常被描述為不透明的、不可解釋的黑盒子。即使我們對它們的權重有完整的描述，也很難掌握它們正在使用的模式以及它們可能出錯的地方。隨著人工智慧體逐漸地進入人類世界，對於我們能夠理解它們的需求也越來越大。

那我們不禁要問：「理解」另一個智能體究竟意味著什麼？作為人類，我們每天都面對這一挑戰，因為與我們所交流接觸的人，他們的潛在特徵、潛在狀態和計算過程幾乎完全無法訪問。但我們具有非常出色的能力，我們可以對陌生人的未來行為進行預測，並推斷出他們對世界的了解。我們對與他人的互動做出規劃，並建立起與其之間的高效和有效溝通。

ToMnet架構

其他智能體的這些「理解」的一個突出特點是，他們幾乎對智能體的真正潛在結構沒有任何參考。我們通常不會試圖估計他人神經元的活動，推斷他們前額皮質的連通性，或者計劃與其他人的海馬體地圖（hippocampal maps）動態的詳細近似進行交互。認知心理學的一個重要觀點是，我們的社會推理取決於其他智能體的高層次模型（Gopnik和Wellman於1992年提出）。這些模型涉及的抽象概念並未描述所觀察行為的基礎的詳細物理機制。相反，我們理解的是他人的心理狀態，例如他們的慾望、信仰和意圖。而這種能力通常被描述為我們的心智理論（Premack和Woodruff於1978年提出）。儘管在某些情況下，我們也可以利用我們自己的想法對他人的想法進行模擬（例如Gordon於1986年、Gallese和Goldman於1998年提出），但我們對其他智能體的最終理解並不是通過我們的模型與機械基礎事實之間1-1對應來實現的，而是由這些模型為諸如預測和規劃等任務提供了多少支持（Dennett於1991年提出）實現的。

一個隨機智能體在其中活動的gridworld示例

在本文中，我們從人的心智理論中獲得靈感，並試圖建立一個能夠學習如何對其他智能體進行建模的系統。我們將此描述為機器心智理論（Machine Theory of Mind）。我們的目標不是提出一種智能體行為的生成式模型以及對其進行反轉的演算法。相反，我們的關注點在於，觀察者是如何自主學習使用有限的數據為其他智能體進行建模的（Botvinick等人於2017年提出）。這將使我們的研究與以前的研究成果區分開來，以往研究依賴於將手工製作的智能體模型作為嘈雜理性的規劃者（noisy-rational planners），例如，使用反向強化學習、貝葉斯推理、貝葉斯心智理論或博弈論等。與其相反的是，我們學習智能體模型，並學習如何從頭開始，通過元學習來對它們進行推理。

構建一個豐富、靈活並具有高性能的機器心智理論對於AI而言可能是一個巨大的挑戰。我們並不是要在這裡解決所有問題。本文要傳遞的一個主要信息是，只要它們以正確的方式表達，構建ToM的許多初始挑戰可以被視為簡單的學習問題。我們這裡的工作就是要弄明白這些簡單公式。

在隨機智能體上進行訓練的ToMnet

這項工作具有很多的潛在應用，學習他人的豐富模型將改善複雜的多智能體任務的決策，尤其是在需要基於模型的規劃和想像力的情況下（Hassabis等人於2013年，Hula等人於2015年，Liehok和Amato於2016年提出）。這些模型對於價值調整（Hadfield Menell等人於2016年提出）和靈活合作（Nowak於2006年，Kleiman-Weiner等人於2016年，Barrett等人於2017年提出）是重要的，並且可能成為未來機器倫理決策（machines』 ethical decision making）的一個組成部分（Churchland等人於1996年提出）。它們對傳播學和教育學也非常有用（Dragan等人於2013年，Fisac等人於2017年，Milli等人於2017年提出），因此可以在人機交互中起到關鍵作用。探索產生這些能力產生的條件可以揭示我們人類能力的起源（Carey等人於2009年提出）。最終，這樣的模型可能成為我們人類理解人工智慧體的重要媒介。

最後，我們強烈的動機是使人類理解人工智慧體，我們在此嘗試了一種新穎的方法：我們試圖建立一個中介系統，以減少行為空間的維度，並以更易理解的形式展現它們，而不是修改智能體結構以人類易於理解的解釋方式揭示其內部狀態。在這方面，對Machin ToM的追求是為了在機器和人類期望之間建立缺失的界面（Cohen等人於1981年提出）。

在本文中，我們使用元學習來構建一個系統，用來學習如何對智能體進行建模。我們通過一些列實驗展示了ToMent如何在訓練分布中學習智能體的通用模型，以及如何在觀察一個新智能體的同時，在線構建一個特定智能體模型。ToMent可以在一系列不同類型的智能體上靈活地學習這些模型，並且對驅動這些智能體制定決策的生成過程幾乎沒有做出任何假設。ToMnet還可以發現行為空間內的抽象概念。

我們注意到，我們在這裡進行的實驗很簡單，旨在說明這一系統的核心思想和功能。要將ToMnet擴展到更廣闊的領域，還有許多工作要做。

第一，由於這種環境具有控制力，因此導致我們完全在gridworld內工作。我們期待將這些系統擴展到複雜的3D視覺環境中，並在其他具有豐富狀態空間的POMDP中運行。

第二，我們在這裡沒有嘗試限制觀測者本身的可觀測性。這顯然是現實世界社交活動中的一個重要挑戰，例如，我們試圖確定別人知道我們所不知道的是什麼時，這本質上是一個推理問題（Baker等人於2017年提出），學習如何做到這一點是ToMnet未來面臨的挑戰。

第三，我們希望能在其他更多維度上描述智能體的特徵，例如，它們是否有生命（Scholl和Tremoulet於2000年提出），友好還是敵對（Ullman等人於2009年提出），被動的還是有計劃的（Sutton和Barto等人於1998年提出）。或許更令人感興趣的是利用ToMnet發現自然或人工種群行為的新結構的可能性，即作為一種機器人類學（machine anthropology）。

第四，心智理論對社會人而言十分重要，因為它能指導我們的社會決策。這項研究的一個重要步驟是將ToMnet放置在人工智慧體內部，人工智慧體必須學習執行多智能體任務。

在追求這些目標的過程中，我們預見了許多未來的需求：豐富ToMnet必須做出一系列預測；向ToMnet的智能體行為生成式模型中引入溫和的歸納偏見；思考智能體如何從它們自身的經驗和知識中不斷總結，以便讓它們的模型了解他人。解決這些問題對於推進機器心智理論是必要的，該理論可以學習負責任的社會人士所具有的豐富能力。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷克世界 的精彩文章:

※人工智慧在家居領域的應用與啟示
※這有5種來自大自然饋贈的AI技術及其應用，你知道多少？

TAG:雷克世界 |