當AI 掌握「讀心術」：DeepMind AI 已經學會相互理解

知識 07-28

選自Science

作者：Matthew Hutson

機器之心編譯

參與：張倩、路

「心智理論」一直被認為是人工智慧無法掌握的能力，然而在 DeepMind 發表的論文《Machine Theory of Mind》中，研究人員提出了一種新型神經網路 ToMnet，具備理解自己以及周圍智能體心理狀態的能力。該論文已被 ICML 2018 接收為 Oral 論文。近日，這一研究又引起了《Science》的注意。

有時候，我們會覺得 Siri 或 Alexa 等數字助理非常令人失望，因為它們根本不懂我們人類。它們需要懂點被心理學家稱為「心智理論」（theory of mind）的東西，搞清楚別人的信念和意圖。最近，計算機科學家開發出了一種新的 AI，這種 AI 可以探測到其他計算機的「想法」，並預測它們的行動，這是機器之間以及機器與人之間靈活協作的第一步。

加州大學伯克利分校的發展心理學家 Alison Gopnik 表示，顯然，要探索一個充滿各種想法的世界，「掌握心智理論非常重要。」人在大約 4 歲的時候會了解到，他人的信念可能與現實不符，然後根據這個人的信念推斷其接下來的行動。當前的計算機可以區分「開心」、「生氣」等面部表情，這是一種與「心智理論」相關的技能，但是它們對人類的情緒、動機知之甚少。

這一新項目的初衷是嘗試讓人理解計算機。AI 使用的許多演算法並不是完全由程序員完成的，而是依賴於機器在解決問題的過程中不斷「學習」。計算機生成的解決方案通常是黑箱，由於演算法過於複雜，人類往往難以理解。因此，DeepMind 研究科學家 Neil Rabinowitz 和他的同事創建了一個名為「ToMnet」的心智理論 AI，並使其觀察其他 AI，看看它能否了解其他 AI 智能體的工作原理。

ToMnet 由三個神經網路組成，每個網路包含一些小的計算單元和從經驗中學到的連接，與人類大腦類似。第一個網路根據其他 AI 過去的行動學習它們的傾向。第二個網路理解其他 AI 的當前「信念」；第三個網路接收前兩個網路的輸出，並根據情況推測其他 AI 的後續行動。

研究中涉及的 AI 智能體是在虛擬房間中到處移動收集彩色箱子以獲取得分的簡單「角色」。ToMnet 從上方觀察整個房間。一次測試中有三種「角色」：一種看不到周圍環境，一種記不住最近的步伐，一種可以看到也可以記住。看不到的智能體可能會沿著牆走，「失憶」智能體會移動到離它最近的物體處，而第三種能夠構建子目標，以特定順序有策略地抓取物體，得到更多分。DeepMind 研究人員在本月於瑞典斯德哥爾摩舉辦的 ICML 大會上報告稱：經過一番訓練，ToMnet 不僅能夠在幾步之後識別「角色」的種類，還能夠準確預測它們的未來行為。

最終測試證明，ToMnet 甚至可以理解持有錯誤信念的「角色」，這是訓練它們掌握心智理論（人類和其他動物具備的心智理論）的關鍵階段。在該測試中，一種「角色」被編程設定為近視，那麼當計算機在遊戲中途改變道路（超出上述「角色」的視力範圍）時，ToMnet 可以準確預測到，近視的「角色」更可能堅持原來的路徑，而視力好的「角色」則更傾向於調整路徑，適應新的情況。

Gopnik 稱，該研究以及 ICML 會議上證明 AI 可以根據它們對自己的了解預測其他 AI 智能體行為的另一研究，都是神經網路「驚人」自主學習能力的例證。但是這仍然無法使人工智慧體達到人類兒童的同等水平，Gopnik 說道，AI 智能體很可能以接近完美的準確率完成錯誤信念任務，即使它們之前從未遇到過。

MIT 心理學家、計算機科學家 Josh Tenenbaum 也研究心智理論的計算模型。他認為 ToMnet 在推斷信念方面比他團隊研發出的系統更高效，後者基於更抽象的概率推論，而不是神經網路。但是 ToMnet 的理解能力與訓練所用語境相關性更強，因此它在全新環境中預測行為的能力欠佳，而 Josh Tenenbaum 的系統甚至兒童在這方面做得更好。Josh 稱，未來兩種方法結合或許會給該領域帶來「真正有趣的方向」。

Gopnik 注意到這種具備社交能力的計算機不僅將改善人機合作，還會影響到人機之間的相互「欺騙」。如果一台計算機能夠理解錯誤信念，那它就可能知道如何誘導人類相信它。希望未來的撲克機器人能夠掌握 bluff（使詐）的藝術。

論文：Machine Theory of Mind

論文鏈接：https://arxiv.org/abs/1802.07740

摘要：心智理論（ToM; Premack & Woodruff, 1978）廣義上指個體有能力理解他人的心理狀態，包括期望、信念和意圖。我們提出對機器進行訓練，使之也具備這項能力。我們設計了一種心智理論神經網路 ToMnet，它使用元學習通過觀察智能體的行為而對它們進行建模。通過該過程，該網路得到一個對智能體行為具備強大先驗知識的模型，同時能夠利用少量行為觀測對智能體特徵和心理狀態進行更豐富的預測。我們將 ToMnet 應用於在 gridworld 環境中採取行動的智能體，結果表明該網路學會對來自不同群體的智能體進行建模，包括隨機、規則系統和深度強化學習智能體等，該網路通過了經典的 ToM 任務，如"Sally-Anne"測試，即意識到他人持有的錯誤信念。我們認為該系統（自動學習如何對出現在其世界中的其他智能體進行建模）是開發多智能體 AI 系統的重要步驟，可以幫助構建人機交互的中介技術，推進可解釋性 AI 的發展。

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※ICML 2018｜第四範式聯合港科大提出樣本自適應在線卷積稀疏編碼
※學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

TAG:機器之心 |