當前位置:
首頁 > 科技 > ICLR 2018 | 斯坦福大學教授Christopher Manning提出全可微神經網路架構MAC:可用於機器推理

ICLR 2018 | 斯坦福大學教授Christopher Manning提出全可微神經網路架構MAC:可用於機器推理

原標題:ICLR 2018 | 斯坦福大學教授Christopher Manning提出全可微神經網路架構MAC:可用於機器推理


選自arXiv


作者:Drew A. Hudson、Christopher D. Manning

參與:劉天賜、黃小天

現今,神經網路已在圖像識別、語音識別等感知層面取得巨大成功,但是在更進一步的推理層面仍有欠缺。為解決這一問題,本文提出了一種新的全可微神經網路架構 MAC,可使網路具有結構化推理和迭代思考的能力, 提升其推理的明確性和表現力;在通過 CLEVR 數據集解決視覺推理的任務中,MAC 實現了 98.9% 的當前最優準確率,同時所需數據量減少 5 倍。

推理,即通過先前已有知識,形成新推斷或者解決新問題的能力,是智能體必不可少的基礎模塊之一。如今神經網路在感知層面已取得巨大成功,我們希望在此基礎上更進一步,勝任一些需要更高級和更成熟思考的任務,因此讓神經網路擁有可以從事實得出結論的能力顯得非常重要。為了達到這一目的,我們思考如何最優地設計一個神經網路,使得它可以擁有結構化推理和迭代思考的能力,而這些能力,對於解決複雜問題必不可少。


具體而言,我們開發了一個全新的模型,並運用在視覺問答 (VQA) 的 CLEVR 項目中 (Johnson et al., 2017a)。VQA (Antol et al., 2015; Gupta, 2017) 是一個富有挑戰性的多模式任務,要求回答關於圖像的自然語言問題。但是,Agrawal et al. (2016) 表明,無論在圖像還是問題上,第一代成功的 VQA 模型都僅僅傾向於挖掘數據集的偏差,獲取淺層理解,而不是構建一個合理的感知和推導流程來得到正確答案 (Sturm, 2014)。CLEVR 的誕生就是為了解決這個問題。如圖 1 所示,數據集的特徵是無偏差、高度結構化的問題,解決這些問題需要一系列富有挑戰性的推理能力,如傳遞關係、邏輯關係、計數和比較,而不允許在此類推理中採取捷徑。


問:黃色小圓柱前面的那個小方塊和綠色反光的物體右邊的小物體顏色一樣嗎?答:不一樣。


圖 1:一個 CLEVR 實例。為了便於描述,加入了顏色。


但是,深度學習方法往往難以在具有組合性和結構性特點的任務中表現優秀 (Garnelo et al.,2016; Lake et al.,2017)。絕大多數的神經網路本質上都是巨大的關聯引擎,為了提升在觀測樣本中的準確率,神經網路會擬合出任何的統計模式,即使它們可能是錯誤的。網路深度、規模和統計特性可以使其應對各種充滿雜訊的數據,往往也限制了模型的可解釋性,並阻礙給出明確合理的推理過程,而這些推理過程在以解決問題為目的的任務中是必不可少的。為了緩解這個問題,最近一些方法採用類似編程語言中表達式樹的符號結構,從一堆預定義的確定集合中組成神經網路的模塊。但因此,它們需要依賴外部預先設定好的結構化表達、功能性程序、不可靠的人工分析或者專家說明,同時需要相當複雜的多階段強化學習訓練框架。這些模型結構上的嚴格要求,以及使用的一系列專門的指定操作模式,最終降低了模型的魯棒性和泛化能力。


圖 2:模型概述。MAC 網路由一個輸入神經元,一個核心的循環神經網路以及一個輸出神經元組成。(1)輸入神經元將原始圖像和問題轉化為分散式向量表徵。(2)核心的循環神經網路將問題分解為一系列運算(也叫控制),它們可以從圖像(知識庫)中檢索信息,並將結果聚合為循環記憶。通過這些運算,網路按照序列推理問題。(3)輸出分類器使用問題和最終記憶狀態,計算得出最終答案。


平衡端到端神經網路方法的泛化性和魯棒性的同時,也要滿足更明確的結構化推理的要求,為此我們提出 MAC 網路:一種新的全可微神經網路結構,來完成推理任務。通過排序新的循環 MAC 神經元(記憶、注意力、組合神經元),我們的模型實現結構化的明確推理。MAC 神經元是受到計算機架構的設計原則啟發而有的神經元,我們希望它可以捕獲基本但通用的推理步驟中的內在原理。MAC 神經元可以明確的將記憶從控制中分離出來,這兩種結構都是循環表徵的,MAC 神經元由三個運算元串聯運行組成,以展現推理步驟:控制元更新控制狀態,以便在每次迭代中參與待解答問題的一些部分; 讀取元在控制狀態和記憶狀態的引導下,從知識庫中提取信息; 寫入元將這些檢索得到的信息整合進記憶狀態,迭代計算答案。MAC 神經元的這個通用設計將作為結構先驗,引導 MAC 網路將問題分解為一系列基於注意力的推理運算,並解決它們。在這個過程中,分解是直接基於數據的,而沒有使用任何的強監督手段。通過神經元之間的自我注意力的聯繫,MAC 網路可以通過一種柔和的方法,表徵任意複雜程度的無環推理圖,同時依然突出物理結構順序和端到端的可微性,以適應簡單地通過反向傳播演算法進行模型訓練。


我們展示模型在 CLEVR 任務及相關數據集上的定性和定量表現。在大量的推理任務和設定中——無論是原始數據集還是更複雜的人為問題——模型都達到了當前最佳的準確率。值得注意的是,在涉及到計數和加總能力的問題中,MAC 網路的表現格外優秀,而這些問題往往是其他 VQA 模型(Santoro et al.,2017; Hu et al.,2017; Johnson et al.,2017b)非常難以完成的挑戰。同時,我們也表明 MAC 網路的學習速度非常快,另外,和其他方法相比,它有效泛化所需的數據量級也更小。最後,大量的簡化測試和誤差分析印證了 MAC 網路的魯棒性、多樣性和泛化能力。這些結果突出說明了在推動神經網路解決組合推理論證時,加入強結構先驗的重要性和價值。根據 Bottou(2014)提出的設想實現,以及在模型中加入新結構,使它明確執行一系列互相實現的運算操作,讓 MAC 網路可以從零開始,一步一步發展出推理能力。雖然每個神經元的功能都被限制在一個很小的可能的連續行為範圍之內,也僅僅是為了實現一個簡單的推理運算,當它們被連接在一起,組成 MAC 網路時,整個系統就變得富於表現力且強大。



圖 3:MAC 神經元結構。MAC 循環神經元包含一個控制元、一個讀取元和一個寫出元,執行雙重控制和記憶隱藏狀態。控制元連續參與到任務描述(問題)的不同方面,更新控制狀態,並在每一個時間步長中表徵神經元實現的推理操作。在控制元的引導下,讀取元從知識庫(圖像)中提取出信息。寫出元整合檢索得到的信息,並記入記憶狀態,產生根據當前推理運算得出的新的中間結果。

MAC 網路


MAC 網路是一個端到端可微架構,旨在實現明確的多階段推理論證過程。它連接了 p 個循環 MAC 神經元,其中每個負責一步推理步驟。給定知識庫 K(在 VQA 場景中是一個圖像)和任務描述 q(在 VQA 場景中是一個問題),模型得出一系列的 p 個和知識庫相互作用的推理運算,並通過迭代整合,控制信息,來完成手中的任務。它有三個組成部分:(1)一個輸入神經元,(2)核心的循環網路,由 p 個 MAC 神經元組成,以及(3)一個輸出神經元。



表 1:CLEVR 和 CLEVR-Humans 準確率,分別通過基準方法、先前方法和我們的方法(MAC)得到。對於 CLEVR-Humans, 我們展示了微調前後的結果。(*)表示使用了項目標籤作為額外監督信息。(?)表示使用了數據增強。(?)表示在原始像素下訓練模型。

論文:Compositional Attention Networks for Machine Reasoning



論文鏈接:https://arxiv.org/abs/1803.03067


摘要:我們提出了 MAC 網路:一種新的全可微神經網路架構,旨在提升推理的明確性和表現力。受到計算機架構第一原則的啟發,MAC 不再使用統一的神經網路黑箱架構,轉而採用了提倡透明性、多用途的設計。模型將問題分解為一系列基於注意力的推理步驟,然後處理它們,其中每一個步驟都由全新的記憶單元、注意力單元和結構性單元(合稱 MAC 神經元)通過將控制和記憶進行分離來實現。通過將神經元連接到一起,並引入結構性約束來規範其互動,MAC 非常有效地學習並實現迭代推理過程,這種學習是通過端到端方法從數據中直接獲取得到的。在模型通過 CLEVR 數據集解決視覺推理問題時,我們通過比較它和先前最優的模型的誤差率,論述了 MAC 所表現出的優點、魯棒性和可解釋性——MAC 實現了當前最優的 98.9% 的準確率。更重要的是,我們說明了模型的計算和數據效率都非常高,尤其是,為了取得很好的結果,它所需要的數據量比其他現有模型所需要的數據量少 5 倍。


本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心Synced 的精彩文章:

TAG:機器之心Synced |