AAAI 2019論文解讀：機器人和認知學習

新聞 01-31

本文介紹了三篇AAAI 2019 論文，前兩篇分別研究了機器人如何學習環境中的物品擁有權以及對物品的操作能力，後一篇研究了是否能用當今的深度學習方法來模擬簡單的人類認知活動。

分析師簡介：Joni 目前是日本國立產業綜合研究所的研究員。在中國大陸本科本行是自動化，後來對機器人研究有興趣，在香港就讀了電機工程的 Mphil 學位。博士時開始著迷生物學和腦科學的機器人研究，因此在德國漢堡大學參與了認知機器人的歐盟項目。此後一直歐洲，英國，日本和中國研究和討論神經科學，生物學和機器人之間共通之處。

機器之心主頁： https://www.jiqizhixin.com/users/24e7c39e-98c4-4dd9-8d36-26d6207e1b67

That"s Mine! Learning Ownership Relations and Norms for Robots
Zhi-Xuan Tan, Jake Brawer, Brian Scassellati
Link: https://arxiv.org/abs/1812.02576

「That"s mine! Learning ownership relations and norms for robots」這篇文章出自耶魯大學的 Scassellati 教授和他的合作者。Scassellati 教授是 social robotics 的其中一位重要的研究者。這篇文章主要解決了一個問題：機器人怎樣通過人機交互中，學習環境中的物品擁有權問題。這種物品擁有權問題，可以進一步擴展為機器人學習社會和人類的規範的問題。

文章主要介紹了解決這個問題的兩個基本步驟：1）怎樣把擁有權問題用數學語言建模；2）機器人怎樣在交互中學習這些模型。

1 建模

因為用戶對物品的擁有權不是簡單的 1 對 1 對應的問題，而且一個用戶對物品的所有權以為著一系列的責任和權利，另外一件物品可能被幾個人同時擁有。為了完整地表達用戶，所有權，規範這三者關係，就需要把物品、主人和（物品的）規範這些都包含在不同的知識表達中。因此文章把擁有權問題建模變成三個子問題：1）用謂語邏輯把擁有權和物品聯繫起來； 2）用資料庫維護針對物品的動作許可權（在文中只是針對有主人和無主人的物品）；3）用概率圖模型維護物品和各用戶的所有關係。

1.1 物品擁有權和規範的聯繫

怎樣把物品所有權和規範聯繫起來呢？比如說有一個規範說機器人不能丟掉有主人的物品，那麼通過之前的物品所有權的學習，機器人眼中的物品所有權規可以通過 Prolog 範式進行描述，例如：

AAAI 2019論文解讀：機器人和認知學習

這個式子中，O 表示任意物品，A 表示一個個體。所以這個式子在系統中的規則描述就是：

AAAI 2019論文解讀：機器人和認知學習

這種關係是文章側重介紹的重點，之後介紹的機器人利用概率推論進行學習過程也是主要針對這個部分。

1.2 關於物品的許可權的規範處理

社會的規範可以包含很多方面，對於以機器人-物品互動為中心的許可權，最主要的就是禁止（forbid）對某件物品進行動作。因此在文章中的許可權，主要指 allow 和 forbid 兩種許可權處理，以謂語邏輯進行表示，就是

AAAI 2019論文解讀：機器人和認知學習

和

AAAI 2019論文解讀：機器人和認知學習

。

1.3 概率圖模型表示所有權

文章用雙向圖表示物品的所有權，其中物品頂點（object node）和用戶（agent node）之間的邊（edge）表述該用戶擁有該物品的概率。另外這個概率只是表示機器人猜測該物品被用戶 n 擁有的猜測，是沒有互斥性的。所以如果一個物品有 n 個潛在的擁有者，n 個概率相加可能會大於 1。這種一個物品被多個用戶擁有的情況也是符合現實情況的。

2 擁有權學習

學習過程是通過人機交互更新上述三種知識表示的過程。比如說當一個用戶指示機器人不要拿起一個看似沒人用的茶杯時說：「不要拿，這是 Cassey 的茶杯」。這句簡單的話需要同時更新三個知識表示：1. 擁有權：茶杯是屬於 Cassey 的；2. 許可權：機器人禁止（forbid）拿起茶杯；3.（一般的）社會規範：機器人不應該拿起茶杯，因為它是屬於 Cassey（或者其他人的）。另外用戶在人機交互中的命令有多種形式，可能只是一般性的擁有權指示，或者許可權指示，或者兩者俱有，因此當具有其他兩種知識時，機器人系統也應該具有推斷預測第三種知識表示的能力。所以如下圖所示，本文是根據 forbid 的命令，可以推測學習物品擁有權，或者學習相反的規則：

AAAI 2019論文解讀：機器人和認知學習

2.1 規則學習

在學習知識的演算法上，文中也提出了 3 個步驟，其中第 1 步是針對知識表示中的第 2 中，學習以物品為中心的許可權處理，文中定義了禁止（forbid）是正樣本（positive example），允許（allow）為負樣本（Negative example），提出了 4 種規則學習演算法。

AAAI 2019論文解讀：機器人和認知學習

其中演算法 1 和 2 是基於 separate-and-conquer 演算法，separate-and-conquer 演算法也叫 covering 演算法 [1.1]，它反覆專門化制定一般規則進行迭代。在每一個迭代選擇專門的規則，讓該規則涵蓋正樣本的子集並排除負面的例子。在我們的例子中，例子主要是通過人機命令樣本（「不許拿桌上的茶杯」）來建立物品的擁有權的猜測。

而且因為這種規則學習是建立於與人環境交互中的，與一般的 separate-and-conquer 演算法不一樣，這是一種在線學習過程，當一個新的樣本被接收時，規則的改變是通過 beam search 逐漸改變，規則的更新是基於一個返回值 score 來確定是否接納/移除新的規則。另外 separate-and-conquer 規則跟流行的 divide-and-conquest 的主要區別是該演算法考慮新規則時，會同時考慮正負兩方，會盡量最大化正樣本和最小化負樣本。關於 separate-and-conquer 和 divide-and-conquest 的結合和比較，可以參考 [1.2]：

當用戶直接提出一個規則（例如「不要拿髒的東西」），機器人可以利用演算法 3 和 4 直接進行 one-shot learning。但要注意在演算法 3 加入的正規則（forbid）要盡量不滿足負樣本（negative example），演算法 4 中的負規則（allow）盡量不滿足正樣本（positive example）。

AAAI 2019論文解讀：機器人和認知學習

2.2 通過環境的所有權預測

機器人可以通過對環境的感知，預測物品的所有權。比如一個人在一個物品附近時，機器人會認為附近桌子上的物品是屬於這個人的。因為機器人操作的動態和稀疏場景，所以文中採用了 KLR（Kernal Logistic Regression）分類物品的所有權（的概率）。KLR 採用了物品的顏色，位置和用戶互動的時間來估計該概率。（但這個文中沒有詳細說，估計有另外的論文描述）。

2.3. 所有權推測

所有權推測跟預測不同,「推測」是機器人根據用戶的命令（比如「禁止拿茶杯」）通過貝葉斯公式推測該物品被擁有的概率。

AAAI 2019論文解讀：機器人和認知學習

2.4. 三者組合

將上述 3 種學習結合起來需要處理兩種矛盾問題：2.1 和 2.3，當引進的規則跟貝葉斯學習的規則相排斥，文中採用了更適合實際工程的啟發性演算法，參考了推測的規則的概率：如果 10% 或者以上的用戶直接規則跟推測的規則相反，系統將嘗試引入新的規則。相反，規則不會被更新，而只會被用到所有權推測。

另外，為了解決機器人的感知 2.2 和所有權推測 2.3 的矛盾可能性，文章直接採用了將 2.2 的結果作為 2.3 的輸入（比如 P（ownby（O，A））。

3 實驗

文章主要採用了模擬器實驗結合實際機器人的視頻演示。其中模擬器實驗定量分析了三個實驗：

3.1 規則學習

提供以物品為中心的指示，學習一般性規則。可以看出在有噪音的情況下，如果允許率為 0.25，F1 只在 0.5 上下。

AAAI 2019論文解讀：機器人和認知學習

3.2 所有權預測和推測

這個實驗主要測試 2.2 和 2.3 的內容。結果現實無論在規則提供與否，結果相差不大，顯示在學習過程中 2.2 和 2.3 結合的比較緊密（也可能是因為 2.2 的輸出其實也是 2.3 的輸入）

AAAI 2019論文解讀：機器人和認知學習

另外文章也進行了任務測試和視頻演示 https://bit.ly/2z8obET，總體來說文中的解決的問題（讓機器人在互動中學習規則）很有創新性，但提出的方法缺乏比較性，而且實驗數據似乎還有提高空間（可能是演算法問題，也可能是思路問題）。

分析師評論：這篇文章利用規則演算法和其他（主要的）符號演算法，試圖讓機器人在人機交互中理解物品的所有權和社會規則問題。因為整個系統是幾個問題的結合，作為採用了幾種不同的方法（包括規則學習，貝葉斯學習，視頻分類等）。作者嘗試用一篇短短 8 頁的文章來介紹整個所有權分析推測的機器人系統似乎有點短，所以有些技術細節一筆帶過了，讀者似乎要讀取其他的引用文章來獲取更多的信息。另外實驗中的樣本也比較偏少，雖然作為一篇會議文章（雖然是 tier one 會議）是足夠，但期待作者可以進行更多的實驗和寫更多的技術細節到下一篇文章（比如期刊文章）中。

Mirroring without Overimitation: Learning Functionally Equivalent Manipulation Actions
Hangxin Liu, Chi Zhang, Yixin Zhu, Chenfanfu Jiang, Song-Chun Zhu
Link:
http://www.stat.ucla.edu/~sczhu/papers/Conf_2019/AAAI2019_Mirroring_Actions.pdf

第二篇文章是著名的 UCLA 朱松純教授和他的合作者貢獻的文章「Mirroring without Overimitation: Learning Functionally Equivalent Manipulation Actions」。但這個研究跟朱教授擅長的計算機視覺有聯繫但不是完全相關，而是利用示教（LfD（learning from demonstration）），令機器人模擬人的鏡像神經元（Mirror Neuron）運作進而來控制機器人的對物品的操作能力。當然 LfD 和鏡像神經元都不是最創新的概念，但該文跟之前的 LfD 不同之處是提出了機器人的示教學習應該「功能等同性」(functionally equivalent)。具體來說，機器人模擬人的動作，不需要完全學習每個細節動作（overimitation），而只需要學習完成對應的目標。因此在本文的上下文中，「目標」(goal) 被定義為目標對象的期望狀態並該狀態應該語法模型中編碼。

本文的創新性在於 1) 採用了觸覺手套來感應不同程度的力度，2) 通過 Q 強化學習和語義模型，以目標為主（goal-directed）學習對應的狀態和力度；3）利用物理模擬器模擬不同的機器人動作和力度可以建立功能等同的動作。

1. 知識表示

文章把完成一個目標動作處理成層次性 Temporal And-Or Graph (T-AOG) 的數據結構。T-AOG 是朱老師一直推崇的層次級有向圖模型，可以用下面的序列描述

G=（S，V，R，P, σ），其中 S 表示一個具體的目標動作，比方說「打開水瓶」，而 V 是代表有向圖中的「And Node」或者「Or Node」。圖中的最末端表示的是各個基本動作，表示把環境（物體）從一個狀態 S_t，通過力量 F，到另外一個狀態S_{t+1} 的過程。因此學習過程變成學習各個節點之間的概率 P(α | β) = P(r) 的過程。

2 學習過程

AAAI 2019論文解讀：機器人和認知學習

2.1 強化學習施力和狀態的關係

為了便於實現，文章使用對象上的力分布作為力的狀態空間，並將 K 均值聚類應用於由不同機器人動作生成的力分布。然後對組中的力分布進行平均和歸一化。對於狀態表示，文章將瓶蓋的距離和角度離散化並將它們標準化為 [0,1]。最後，以時間差異的方式應用著名的 Q 學習規則來學習力和狀態關聯。

AAAI 2019論文解讀：機器人和認知學習

2.2 學習目標導向的語法

由策略學習的人 - 對象交互（hoi）序列自然地形成來自隱式語法的解析句子的空間。因此，可以按照後驗概率通過 ADIOS [2.1] 恢復語法結構。

AAAI 2019論文解讀：機器人和認知學習

2.3 鏡像學習

為了讓機器人學習動作鏡像但又避免過度模仿，文章利用了基於物理的 Neo-Hookean 模型模擬器對學習出來的模型進行測試。鏡像動作首先通過模擬下的力分布來操作，然後與學習得出的力分布進行比較。然後選擇與學習的力的概率分布的最小距離的動作（如下圖所示）。在本文中使用 KL 散度作為距離度量。

AAAI 2019論文解讀：機器人和認知學習

最後本文的各項功能集成起來如下圖所示：

AAAI 2019論文解讀：機器人和認知學習

3 實驗

文章採用了雙臂 7-DoF Baxter 機器人。整個系統在 ROS 上運行。收集手部姿勢時使用開放式觸覺手套和力數據，該手套配備有 i）15 個 IMU 的網路以測量各個趾骨之間的旋轉，以及 ii）使用 Velostat（一種壓阻材料）的 6 個定製力感測器來記錄每個趾骨上的兩個區域（近端和遠端）的力和手掌上的 4×4 區域。手腕和手腕部分（即瓶子和蓋子）之間的相對姿勢是從 Vicon 獲得的。數據收集過程如下圖所示。

AAAI 2019論文解讀：機器人和認知學習

在學習過程之後，在機器人上執行學習模型如下圖所示讓機器人完成打開藥瓶的動作。首先從學習策略引起的 T-AoG 中對解析樹進行採樣，以獲得機器人應該模仿的一系列力類型，以便引起對象狀態的相對變化。然後，Baxter 機器人的執行從初始位置開始並順序執行相應的基元。在下圖中，a6 會產生由機器人手腕中的力感測器（左上）捕獲的力，比較數據表明提出的鏡像方法確實比 baseline 方法能成功打開瓶子。

AAAI 2019論文解讀：機器人和認知學習

分析師評論：研究針對以目標為主的動作學習，利用不同模態（力度，攝像頭等）的感測器採集足夠的數據，似乎達到不錯的學習效果。另外利用層次的圖 T-AOG 也能更好表示機器人的狀態變化，達到更好的控制效果。比較其他機器學習和機器人結合的研究組（比如 [2.2]）如今主要採用深度學習+強化學習，似乎有更好的可解釋性。

Cognitive Deficit of Deep Learning in Numerosity
Xiaolin Wu, Xi Zhang, Xiao Shu
Link: https://arxiv.org/abs/1802.05160

第三篇論文跟深度學習的可解釋性和認知學習有關。標題是「Cognitive Deficit of Deep Learning in Numerosity」，是來自上海交大和加拿大麥克馬斯特大學的合作研究。

文章研究了是否能用當今的深度學習方法來模擬簡單的人類認知活動「Subitizing「。Subitizing 中文沒有固定的翻譯，一般叫「數覺」或「數感「。詳情可以參看「知乎日報」：https://daily.zhihu.com/story/4066465。簡單來說，人除了有逐一數數的能力以外，也有一眼認出 5-6 以下物體數量的能力。而如今的深度學習雖然有與人相比擬，甚至超過人類的物體/臉孔辨識能力，但是能否也有與人類類似的「數覺」能力？本文也想探究更深次的深度學習：黑盒子的深度學習是否可以達到人類的抽象和推理水平，這種超出了一般（像素）的統計學學習能力。

DCNN（深度卷積網路）可以用來計算特定環境中特定類型的物體，例如街道上的行人或顯微鏡下的細胞。但是這些這些方法不能像人類一樣在不同背景的不同對象之間進行推廣。Subitizing 需要在像素中抽象出面或單元格個數的自然數字。和一般 CNN 的分類問題不同的是，要實現 Subitizing 的主要問題是抽象物體的個數（也和符號化有關），但與物體具體的形狀、顏色等幾何信息相關性不大。

文章採用了如下的數據集進行訓練。訓練的圖像都是合成和沒有雜訊干擾的。

AAAI 2019論文解讀：機器人和認知學習

在實驗一，文章採用了最直接的方法，嘗試在測試集改變圖形的大小形狀顏色等信息，由此測試 DCNN 模型是否具有大小形狀顏色的泛化能力。文章在這裡利用了下面的 DCNN 模型進行訓練：

AAAI 2019論文解讀：機器人和認知學習

但結果不太令人滿意，除了在第一個測試里，網路可以分辨出按比例擴大的圖形，其他實驗（包括改變形狀，改變顏色，把訓練圖像改變成環狀等），基本網路不能完成 Numerosity 的任務。（下面是部分實驗結果，包括改變顏色，測試集圖像是訓練圖像的環狀版本）。由此看來，當圖像在空間域裡面的概率分布改變了，在 DCNN 里基本很難辨識出來。

AAAI 2019論文解讀：機器人和認知學習

在第二個實驗中，作者嘗試把上述的幾何信息歸一化, 只把所有的圖像邊緣用來訓練和測試：

AAAI 2019論文解讀：機器人和認知學習

比起第一個實驗，網路學習歸一化（也就是經過邊緣檢測）的圖像達到較好效果（如下圖所示）。但識別率還沒達到人的 Subitizing 標準。

AAAI 2019論文解讀：機器人和認知學習

在第三個實驗里，文章繼續對圖形進行計算機視覺的形態學預處理。以下幾個預定義的核卷積運算元，以此來提取相關的拓撲信息，而不是直接用原始圖像來進行 DCNN 處理。但作者經過嘗試發現，這些核卷積運算元只能預定義，而不能通過一般的反向傳播學習來達到收斂。

AAAI 2019論文解讀：機器人和認知學習

分析師評論：這篇文章建立了簡單的連接模型 (connectionist)，和改變訓練和測試集性質等辦法做了初步的深度學習和認知學關係的測試。作者認為, 如今流行的 DCNN 方法 (或者只憑藉深度學習) 並不能實現 Subitizing 等簡單的人類認知功能。而通過添加預定義的卷積運算元，效果會提高。這是否意味著要某些提取物體基本的拓撲學信息，而這些計算要在人腦中內置（innate）呢？另外除了 Subitizing，和人的手勢相關的數數（counting) 的連接學模型研究，可以參考 [3.1][3.2]。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※2018人工智慧期末考試複習資料（二）：產業篇
※僅17 KB、一萬個權重的微型風格遷移網路！

TAG:機器之心 |