當前位置:
首頁 > 新聞 > 結合符號與連接,斯坦福神經狀態機衝刺視覺推理新SOTA

結合符號與連接,斯坦福神經狀態機衝刺視覺推理新SOTA

選自Arxiv

參與:一鳴、張倩、杜偉


符號主義和連接主義之爭由來已久。儘管連接主義的代表——深度學習在近年來取得許多了重大成就,其解釋性差、泛化能力低、依賴大量數據的問題廣受詬病。近日,斯坦福大學研究人員提出一種結合符號主義和連接主義的模型——神經狀態機(Neural State Machine),旨在抹平符號主義和連接主義之間的鴻溝,並對二者進行優勢互補,從而更好地完成視覺推理任務。

在研究中,為了解決「看圖問答」任務,研究人員將圖像和問題同時轉化為基於語義概念的表徵,在一個抽象的隱空間中運行,增強了模型的透明性和模塊性。

結合符號與連接,斯坦福神經狀態機衝刺視覺推理新SOTA

論文鏈接:https://arxiv.org/pdf/1907.03950.pdf

符號主義和連接主義優勢互補

符號主義和連接主義是人工智慧中的兩大分支。符號主義 AI 也叫「基於規則的 AI」,其基本思想是將世界上的所有邏輯和知識轉換為計算機編碼。在符號主義 AI 中,每個問題都必須拆分為一系列的「if-else」規則或其他形式的高級軟體結構。符號主義能夠從豐富的感官體驗中提取和傳達有創意的新想法,因此這種系統的出現成為了智能進化中的一個重大轉折點。

相對的,連接主義 AI 體現在機器學習和深度學習中,AI 模型通過統計比較和發現不同信息之間的關聯來學習發展自己的行為。

人工智慧發展早期,符號主義佔據主要地位。而 20 世紀 90 年代後連接主義發展迅猛,逐漸取代了符號主義的地位。今天,連接主義的代表——深度學習取得了的很多成果。

然而,儘管利用深度學習的神經網路非常強大、靈活和魯棒,但也有其自身的缺陷,如很難以系統化的方式實現泛化、過於依賴表面和具有潛在誤導性的統計關聯性而不學習真正的因果關係等。與此同時,這些魯棒性和通用性兼備的神經網路模型具有龐大的規模和統計屬性,但這些也阻礙了它們的可解釋性、模塊性和合理性。

因此,斯坦福大學的兩位研究者提出了神經狀態機(Neural State Machine),這是一種可微且基於圖的模型,並且模擬自動機的操作行為。他們旨在抹平符號主義和連接主義之間的鴻溝,探索神經狀態機模型在視覺推理和合成問題系統領域的應用。

神經狀態機模型架構

神經狀態機模型分為兩個階段:學習階段和推理階段。根據給定的圖像,研究者首先生成了能夠以緊湊結構捕獲自身潛在語義知識的概率場景圖。然後,他們將概率圖看作狀態機,並模擬其迭代計算,從而回答問題或者得出推論。

結合符號與連接,斯坦福神經狀態機衝刺視覺推理新SOTA

圖 1:神經狀態機是一個圖網路模型,可以模擬機械計算。在 VQA 任務中,模型建立一個概率圖,捕捉圖像中的語義信息,按照問題的指導遍歷其狀態以執行順序推理。

神經狀態機建立分為兩步:建模和推斷。

建模過程中,研究人員將圖像和語言建模為抽象表示。圖像通過概率圖表示其語義——包括圖像中表示的目標、屬性和關係。而問題則被轉換為一個推理指令序列。

在推斷階段,研究人員將圖視為狀態機,節點代表圖像中的目標,對應狀態,而邊代表目標之間的關係,對應轉移(transitions)。研究人員之後啟動序列計算,迭代地將從問題中提取的指示輸入機器,並改變狀態,使得模型可以進行語義-圖像推理,並最終到達結果

概念辭彙表

首先,研究者建立了狀態機的嵌入概念辭彙表。他們沒有直接使用原始和密集的感官輸入特徵,而是根據建立的辭彙表來表徵視覺和語言輸入,從而找出與它們最相關的概念。

狀態和邊過渡

研究者推理得出的場景圖包含:(1)一組目標狀態節點,每個節點附有邊界框、掩碼、密集視覺特徵以及每一種目標屬性的離散概率分布,並在概念辭彙表中定義;(2)一組邊,每個邊與概念中的語義類型(如在... 之上、吃東西等)的概率分布相關聯,並與狀態機狀態之間的有效過渡保持一致。接著,他們繼續計算每個邊的結構化嵌入表徵。

結合符號與連接,斯坦福神經狀態機衝刺視覺推理新SOTA

圖 2:推理場景圖中目標掩碼的可視化圖。

推理指令

研究者將問題轉化為一系列推理指令,這些指令之後由狀態機讀取並指導其計算。

研究者首先使用 GloVe(dimension d = 300)嵌入問題中的所有詞(qustion word)。他們通過 tagger 函數來處理每個詞,該函數要麼將詞轉化為辭彙表中最相關的概念,要麼在不匹配辭彙表中任何概念的情況下保持其完整性。

接下來,研究者將每個詞轉化為基於概念的表徵。直觀上看,apple 等實義詞通常被認為與概念上的 apple 相似(基於它們的 GloVe 嵌入),所以它們會被該術語的嵌入取代。但是,who、are 和 how 等功能詞則被認為與相應的語義概念不那麼相似,所以它們會接近原始嵌入。

最後,研究者利用一個基於注意力的編碼器-解碼器處理歸一化問題中的詞。他們首先通過 LSTM 編碼器傳遞這些詞,隨後推導出循環解碼器,生成隱狀態。此外,研究者又將問題中的每個詞轉化為相應的推理指令,這些指令在每個解碼步驟上計算歸一化問題中詞的注意力。

模型模擬

首先,網路以狀態(圖像場景中的目標)上的統一初始分布開始,在每一個推斷步驟上讀取從問題中得出的指令,並利用該指令通過轉移邊(目標之間的關係)上的概率來重新分配在狀態(目標)上的注意力。

結合符號與連接,斯坦福神經狀態機衝刺視覺推理新SOTA

圖 3:圖遍歷步驟的可視化,注意力正沿著最相關的邊從一個節點轉移到其臨近節點。

研究者的目標是根據當前處理的狀態確定下一個要遍歷的狀態。因此,首要目標是發現指令類型:與指令最相關的屬性類型基本上就是找出指令的內容。

研究者還進一步為每條邊分配了一個變數,該變數可以類似地表徵其關係類型。一旦知道指令的內容,就能將該指令與所有的狀態和邊進行比較,為它們中的每個計算相關性得分(relevance score)。接下來,研究者得到了指令和每個變數之間的相關性得分。

有了節點和邊的相關性得分之後,研究者將模型的注意力從現有節點(狀態)轉移到了與其最相關的臨近節點,也就是接下來的狀態。

為了預測答案,研究者使用一個標準的 2 層全連接 softmax 分類器,該分類器接收問題向量的連接以及一個額外的向量,該向量收集來自機器最終狀態的信息。

實驗

研究者在兩個最近的 VQA 數據集——GQA 和 VQA-CP——上評估了神經狀態機模型。GQA 數據集聚焦現實世界的視覺推理和組合問答;VQA-CP(version 2)專門用於測試模型在訓練和測試集之間答案分布發生變化時的泛化能力。

神經狀態機模型在 VQA-CP 和 GQA 的單一模型設置下都達到了當前最佳性能。

如表 1 所示,在單一模型設置下,神經狀態機模型在多個指標上達到了 SOTA 性能,如準確率、一致性。

結合符號與連接,斯坦福神經狀態機衝刺視覺推理新SOTA

表 1:在單一模型設置下的 GQA 得分。

在 ensemble 設置下,神經狀態機模型性能位列第三,如下表 2 所示。

結合符號與連接,斯坦福神經狀態機衝刺視覺推理新SOTA

表 2:GQA ensemble

為了進一步探索神經狀態機的泛化能力,研究者為 GQA 創建了兩個子集,用於測試模型在問題內容和結構上的泛化能力,並基於這兩個子集進行實驗,展示了神經狀態機模型在多個維度上強大的泛化能力。

研究者在三個維度上展開了實驗:1)訓練和測試集之間答案分布的變化;2)在單獨學習的概念上的語境泛化;3)未見過的語法結構。

研究者首先在 VQA-CP 上測試了模型的性能,如下表 3 所示,神經狀態機的性能比其他模型高出很多。

結合符號與連接,斯坦福神經狀態機衝刺視覺推理新SOTA

表 3: VQA-CPv2

鑒於 GQA 數據集可以提供問題中詞的 grounding 注釋,研究者在 GQA 上進行了進一步的泛化研究。這些注釋可以讓研究者將訓練集分為兩個有趣的方向——「內容」和「結構」,如下圖 4 所示。

結合符號與連接,斯坦福神經狀態機衝刺視覺推理新SOTA

圖 4:研究者將 GQA 數據集分為兩部分,以評估模型在「內容」和「結構」上的泛化能力。「內容」:測試問題是關於新概念的;「結構」:測試問題有關未見過的語言模式。

下表 4 總結了模型在「內容」和「結構」兩種設置下的結果,將神經狀態機模型與已發布的 GQA 基線進行對比,所有模型都使用相同的訓練方案和輸入特徵。

結合符號與連接,斯坦福神經狀態機衝刺視覺推理新SOTA

表 4:GQA 泛化。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

構建AI前的數據準備,SQL要比Python強
找不到合適的數據?這裡有281個計算機視覺數據集任你選

TAG:機器之心 |