1＋1＞2：MIT＆IBM提出結合符號主義和連接主義的高效、準確新模型

知識 06-09

選自openreview.net

作者：Jiayuan Mao、Chuang Gan

機器之心編譯

參與：張倩、路

自人工智慧的概念提出以來，關於符號主義和連接主義的爭論就不絕於耳。究竟哪一種方式可以實現更好的人工智慧？這一問題目前還沒有定論。深度學習的快速發展讓我們看到連接主義在構建 AI 系統中的優勢，但其劣勢也很明顯，如對大量數據的依賴。因此，越來越多的學者開始尋求取兩者之長的 AI 系統實現方式，本文中介紹的 Neuro-Symbolic Concept Learner 便是其中的一項工作。

人工智慧應該複製人腦的哪一部分功能？這個問題的答案反映了一場辯論的焦點，這場辯論和 AI 的歷史一樣久遠。20 世紀 50 年代，人類開始探索如何創建可以思考的機器，也是從那時候起，AI 領域的研究和發展之路陷入了分歧：符號主義和連接主義 AI 應如何取捨？

符號主義 AI 也叫「基於規則的 AI」，其基本思想是將世界上的所有邏輯和知識轉換為計算機編碼。在符號主義 AI 中，每個問題都必須拆分為一系列的「if-else」規則或其他形式的高級軟體結構。

連接主義 AI 體現在機器學習和深度學習中，其基本思想是：AI 模型應該通過統計比較和發現不同信息之間的關聯來學習發展自己的行為，即不告訴模型如何找出圖像中的貓，而是給它一千張貓的圖像，讓它自己找出發現圖像中貓的方法。

在該領域早期的六十年中，創建 AI 系統的主流方法多數以符號主義為主。但在過去的十年里，人工神經網路的一場變革使得深度學習成為 AI 領域的主角。

在符號主義、連接主義兩個陣營繼續爭論哪種方法能產生更好的結果之際，一些研究者卻另闢蹊徑，開始著手研究如何取二者之長。代表性研究包括前段時間介紹的 DeepMind 新型端到端神經網路架構 PrediNet（參見：結合符號主義和深度學習，DeepMind 提出新型端到端神經網路架構 PrediNet）以及 MIT-IBM Watson AI Lab 研究者提出的神經-符號概念學習器（Neuro-Symbolic Concept Learner，NS-CL）。

論文：THE NEURO-SYMBOLIC CONCEPT LEARNER: INTERPRETING SCENES, WORDS, AND SENTENCES FROM NATURAL SUPERVISION

論文鏈接：https://openreview.net/pdf?id=rJgMlhRctm

該論文出現在今年的 ICLR 會議上。在論文中，研究者介紹了一種將神經網路與基於規則的人工智慧結合在一起的 AI 模型——「Neuro-Symbolic Concept Learner」，並稱這種混合方法有望克服每種方法面臨的挑戰，同時創造出大於二者總和的能力。

該模型可以學習視覺概念、詞以及句子的語義分析，且不需要對它們進行顯式的監督。它僅通過看圖像、閱讀成對的問題和答案來學習。該模型構建了一個基於對象的場景表徵，並將句子轉換成可執行的符號程序。

為了填補兩種學習模塊之間的鴻溝，研究者使用了一種能夠在潛在場景表徵上執行這些程序的神經-符號推理模塊。與人類的概念學習方式類似，該感知模塊基於被提及對象的語言描述來學習視覺概念。同時，學到的視覺概念有助於學習新單詞、分析新句子。他們使用課程學習（curriculum learning）來指導對圖像和語言構成的大空間的搜索。

大量實驗表明，NS-CL 模型在學習視覺概念、詞表徵和句子的語義分析方面具有很高的準確率和效率。此外，該模型可以輕易泛化到新的對象屬性、構成、語言概念、場景、問題甚至是新的程序域，還可用於視覺問答、圖像-文本雙向檢索等應用。

為什麼要結合符號主義和連接主義

符號主義的局限

在過去的幾十年里，多數研究集中在創建可模擬人腦推理功能的符號 AI 系統上，但經驗表明，人類解決的許多問題都無法分解為符號表徵。

人類可以憑藉符號檢測出貓的特徵（如尖耳、三角鼻等），但這一過程非常複雜，涉及到不同的角度、光照等，甚至在遮擋情況下也能腦補出全貌。但對於計算機來說，將這些相同的特徵轉換為符號相當困難，需要寫出大量代碼，從無限種可能中抽象出這些特徵。

簡而言之，符號 AI 不適合處理圖像、音頻等非結構化數據，即使在充滿非結構化文本數據的自然語言處理任務中，它的應用也十分有限。

連接主義也不是萬能的

與符號主義 AI 相比，神經網路在處理非結構化數據方面要擅長得多，但它也有自己的局限。

神經網路要依賴大量的數據，而且往往是經過標註的數據。如果數據量不足，深度學習模型就很難發揮自己的作用。因此在某些數據匱乏的領域，應用深度學習解決實際問題是非常困難的。

此外，神經網路還存在可解釋性差、面對對抗樣本時魯棒性差等問題。

雖然神經網路可以解決一些符號主義 AI 難以解決的問題，但在符號主義 AI 可以輕易解決的一些簡單推理問題上，神經網路可能無能為力，比如高中數學。

二者結合才能碰撞出智慧的火花

MIT 和 IBM 研究者設計的神經-符號概念學習器（NS-CL）結合了符號主義 AI 和深度學習的長處，主要想法是結合基於規則軟體的推理能力和神經網路的學習能力，構建一個強大的混合 AI 模型。

在這個混合 AI 模型中，符號主義構件利用神經網路處理、分析非結構化數據的能力。同時，神經網路也受益於基於規則的 AI 系統的推理能力，這種能力可以減少神經網路學習新事物時所需的數據量。

二者結合產生了「1 1＞2」的效果。

神經-符號概念學習器

這項研究提出的神經-符號概念學習器（NS-CL）利用一種符號化推理過程聯結視覺概念、詞以及句子的語義分析，且無需對其中任何一種提供顯式注釋。研究者首先使用視覺感知模塊為場景構建基於對象的表徵，然後運行語義分析模塊將問題轉換為可執行的程序。接下來，他們應用了一個 quasi-symbolic 程序執行器，根據場景表徵來推理答案。他們使用成對的圖像、問題和答案來聯合訓練視覺和語言模塊。

圖 2：該研究提出用神經符號推理來聯合學習視覺概念、詞和句子的語義分析。

如圖 2 所示，給定一個輸入圖像，視覺感知模塊負責檢測場景中的對象並提取出每個對象的潛在表徵。語義分析模塊將用自然語言表示的輸入問題轉換為用給定領域特定語言（DSL）寫成的可執行程序。生成的程序具有符號和功能模塊的層次結構，每個模塊完成場景表徵上的一種特定操作。顯式程序語義具有組合性、可解釋性和可泛化性。

程序執行器根據得到的場景表徵來執行程序並回答問題。該程序執行器以一種符號化、確定性的方式工作。這種特徵可以確保對程序進行透明的執行追蹤。該程序執行器有一個對視覺表徵和概念表徵完全可微的設計，從而支持訓練期間基於梯度的優化。

Quasi-symbolic 程序執行

給定從自然語言問題中恢復的潛在程序，符號程序執行器執行該程序並根據基於對象的視覺表徵得到答案。該程序執行器是一個確定性的功能模塊的集合，這些模塊用於實現 DSL 中指定的所有邏輯操作。圖 4B 展示了該程序的執行追蹤。

圖 4B：用於 VQA（視覺問答）的神經-符號推理模型圖示。感知模塊首先將視覺場景解析為基於對象的深度表徵，語義分析器將句子解析為可執行的程序。然後符號執行過程將兩個模塊連接起來。

課程視覺概念學習

受人類概念學習的啟發，研究者採用課程學習方法來促進聯合優化。他們將訓練樣本分為四步（圖 4A）：1. 學習對象級別的視覺概念；2. 學習關係問題；3. 在感知模塊固定的情況下學習更加複雜的問題；4. 聯合精調所有模塊。他們發現，這對學習神經-符號概念學習器（NS-CL）至關重要。

圖 4A：通過看圖、閱讀成對的問題和答案，對視覺概念、詞和句子的語義分析進行課程學習。

實驗

研究者通過實驗展示了 NS-CL 的多項優勢：

以驚人的準確率學習視覺概念；

在 CLEVR 數據集上實現數據高效的視覺推理；

能夠很好地泛化至新屬性、視覺構成和語言領域。

研究者在 5000 張圖像上訓練 NS-CL（數據量不到 CLEVR7 萬張訓練圖像的 10%），在課程學習過程中為每個圖像生成 20 個問題。Mask R-CNN 模塊是在 4000 張生成 CLEVR 圖像上預訓練的，這些圖像具備邊界框標註。

視覺概念學習

NS-CL 模型將屬性作為神經運算元，從潛在對象表示映射到屬性特定的嵌入空間，如下圖 3 所示：

圖 3：研究者將「Shape」、「Color」等屬性作為神經運算元。這些運算元將對象表示映射到視覺語義空間。研究者使用基於相似度的指標進行對象分類。

下表 2 總結了 NS-CL 和其他強大基線模型的對比結果：

表 2：該研究使用包含「How many red objects are there?」等簡單問題的診斷問題集，評估模型學到的視覺概念。NS-CL 的性能優於卷積和注意力基線模型。這表明基於對象的視覺表示和符號推理方法能夠更好地理解視覺概念。

數據高效和可解釋的視覺推理

NS-CL 通過觀察圖像、讀取成對問答來聯合地學習視覺概念、辭彙和語義分析。它可以直接應用於視覺問答任務（VQA）。

下表 4 總結了多個模型在 CLEVR 驗證集上的結果。在不使用程序注釋的所有模型中，NS-CL 取得了最優性能。

表 4：NS-CL 模型在沒有程序注釋的情況下，取得了超過所有基線模型的性能，甚至與使用完整程序注釋的 TbD 等模型相比，也達到了類似的性能。

研究者還對視覺特徵和數據效率進行了系統研究，他們實現了基線模型的兩個變體：TbD-Object 和 MAC-Object。表 3 總結了實驗結果。NS-CL 模型的數據效率優於所有基線模型。

表 3：研究者對視覺特徵和數據效率進行了系統研究，對比了 NS-CL 和多個基線模型及其變體。在僅使用 10% 訓練圖像的情況下，NS-CL 可與使用完整數據集訓練的基線模型獲得相似的性能。

在新屬性和視覺構成上的泛化效果

圖 5：研究者測試了場景中對象數量和問題複雜度（即程序樹深度）的組合泛化效果。研究者將數據分割為四組，它們具備不同的場景和問題複雜度。而該研究提出的基於對象的視覺表示和顯式程序語義取得了最好（幾乎完美）的組合泛化效果。

新場景和問題的組合泛化效果

如下表 5 所示，NS-CL 在更大場景和更複雜問題上實現了幾乎完美的泛化效果，其 QA 準確率至少超過其他基線模型 4%。

表 5：研究者引入了一種新型簡單的 DSL 用於圖像-描述檢索，以評估視覺概念遷移的效果。由於 VQA 和圖像描述檢索存在差異，因此 VQA 基線模型僅能在部分數據集上推斷出結果。而 NS-CL 基於對象的視覺概念可以直接遷移到新領域。

擴展至其他程序域

表 5c 對比了 NS-CL 和典型的圖像-文本檢索基線模型在完整圖像-描述數據集上的性能。在沒有句子語義標註的情況下，NS-CL 可以將圖像描述解析為新 DSL 程序，其性能比 CNN-LSTM 基線模型好 30%。

擴展到自然圖像和語言

圖 7 展示了 NS-CL 在 VQS 上的執行追蹤。

圖 7：左：來自 VQS 數據集的圖像-問題對示例，以及對應的 NS-CL 執行軌跡。右：模型在 VQS 測試集上的結果。NS-CL 取得了和基線模型類似的性能。

圖 8：從 VQS 中學到的概念，包括對象類別、屬性和關係。

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※現實版「柯南變聲器」來了，搜狗變聲讓你聲音隨心變
※IEEE官方確認限制華為審稿：為保護會員，必須遵守美國法規

TAG:機器之心 |