當前位置:
首頁 > 最新 > 打開黑箱重要一步,MIT提出視覺推理模型性能與可解釋性鴻溝

打開黑箱重要一步,MIT提出視覺推理模型性能與可解釋性鴻溝

近日,MIT 林肯實驗室和 Planck Aerosystems 聯合發布論文,提出一組可組合的視覺推理原語,並構建了 Transparency by Design network(TbD-net),通過整合注意力機制推進了模型透明度,同時又保證了高性能。TbD 在 CLEVR 數據集上達到了當前最優的準確率 99.1%;在 CoGenT 泛化任務上,TbD 比當前最優的模型提升了超過 20 個百分點。該論文被貼到 reddit 上後立刻引起大量關注。機器之心對該研究進行了介紹。

GitHub 地址:https://github.com/davidmascharka/tbd-nets

視覺問答(VQA)模型必須能夠對圖像進行複雜的空間推理。例如,為了回答問題:「大金屬球右側的立方體是什麼顏色?」這個問題,機器學習模型必須確定哪個球體是大個、金屬材質的,必須理解右側是什麼樣的位置概念,並將這些概念應用於視野內所有物體。在新的探索區域內,模型必須找到立方體,並識別它的顏色。該行為應該是組合的,並可以允許任意長度的推理鏈。

圖 1:視覺問答任務圖解,本論文提出的 Transparency by Design network(TbD-net)包含了一系列注意力掩碼,幫助模型準確找到圖中的兩個大塊金屬圓柱體。

儘管最近研究者針對 VQA 任務提出了大量不同的模型 [8, 12, 23, 26, 35, 37],但神經模塊網路 [2, 3, 12, 18] 是其中最直觀的。神經模塊網路由 Andreas et al. [2] 提出,由各自執行獨立操作的一系列模塊組成,以解決特定問題。它很好地建模了視覺推理任務的組合屬性。早期研究中運用注意力機制設計模塊,這種設計允許觀察模型操作。但是,這一方法在複雜的視覺推理任務比如 CLEVR [17] 上表現並不好。Johnson et al. [18] 以損失模型透明度為代價解決了這一性能問題。但問題依然存在,因為要想確保適當的模型行為、取得用戶信任、診斷推理誤差,檢查推理過程每一步的能力在實際應用中十分關鍵。

通過根據視覺注意力機制明確地設計一個模塊網路,該論文的研究彌合了模型性能與可解釋性之間的鴻溝。本論文作者把這一方法稱為 Transparency by Design(TbD),如圖 1 所示。Lipton [20] 指出,透明度和可解釋性經常被提及,卻從未被定義。本文將透明度定義為檢查每個模塊的中間輸出、理解其高級行為的能力。也就是說,如果模塊從視覺上強調了輸入圖像的正確區域,則模塊輸出是可解釋的。這確保了推理過程的可解釋性。章節 4.1 中具體定義了這一概念,並提供了量化分析。在本文中,研究者:

提出一組可組合的視覺推理原語,其整合了注意力機制,推進了模型透明度;

在 CLEVR [17] 數據集上展示了當前最優的性能;

表明組合性視覺注意力可以清晰洞察模型行為;

提出一種可以量化評估視覺注意力機制可解釋性的方法;

在 CoGenT 泛化任務中 [17],把當前最優性能提升了 20 個百分點。

圖 2:神經模塊網路中間輸出(棕色圓柱體上的注意力)的梯度可視化產生了不可靠的注意力掩碼。將下游模塊從查詢顏色(中)改為查詢大小(右)會改變注意力的可視化。

Transparency by Design

將複雜的推理鏈分解成一系列較小的子問題,每個可以單獨解決和組合,這是一種強大、直觀的推理方式。這種模塊結構還允許檢查推理過程中每一步的網路輸出,因為模塊設計可以輸出可解釋的輸出。受此啟發,本論文作者引入一種神經模塊網路,可以對圖像空間中的注意力機制進行明確建模,該網路叫做 Transparency by Design 網路(TbD-net),設計時遵循透明度是激發因子這一原則。研究者希望該模型達到 Johnson et al. [18] 模型的性能水平,同時保持類似 Andreas et al. [2]、Hu et al. [12] 模型的透明度,因此該模型整合了這三種架構中的設計決策。Johnson et al. [18] 架構中的程序生成器具備極高的靈活性,性能優異,因此研究者在 TbD-net 網路中使用這這一組件。他們使用表 1 所示原語操作,但根據預期功能重新設計每個模塊。生成的模塊類似 Andreas et al. [2] and Hu et al. [12] 所用的方法。

為了執行這一設計決策,考慮到一些模塊只需要關注圖像的局部特徵,如注意力模塊關註明確的物體或屬性。其他模塊需要全局語境以執行操作,如 Relate 模塊必須具備在整個圖像中轉換注意力的能力。研究者結合每個模塊執行任務的實驗數據,構建了一組新型模塊架構,並針對每個操作進行了優化。

在視覺問答任務中,推理鏈中的大多數步驟需要定位具備顯著可視化屬性(如顏色、材料等)的物體。研究者確定每個執行此類過濾的 TbD 模塊可輸出一維注意力掩碼,明確劃分相關空間區域。因此,TbD-net 沒有精細定義高維特徵圖,而是在其模塊之間傳輸注意力掩碼。通過特意執行該行為,研究者輸出了一個可解釋性和透明度極高的模型。這是遠離把複雜神經網路視作黑箱的重要一步。圖 3 展示了在解決複雜 VQA 問題時,TbDnet 在推理鏈中如何恰當地變換注意力,通過對其生成的注意力掩碼的直觀可視化,該過程很容易就可以解釋。注意該模型對注意力的使用借鑒了 Hu et al. [12] 的研究。這些模塊必須利用通過它們的注意力,必須輸出準確的注意力地圖。研究者展示的所有注意力掩碼都是使用視覺均勻的顏色圖生成 [14]。

表 1:TbD-net 中使用的模塊。「Attention」和「Encoding」分別代表前一個模塊的一維和高維輸出。「Stem」指訓練好的神經網路輸出的圖像特徵。變數 x 和 y 指場景中明確的物體,而 [property] 指顏色、形狀、大小或材料。

圖 3:閱讀順序是自上而下,TbD-net 使視覺注意力掩碼回答關於場景中物體的問題。左側的樹狀圖表示 TbD-net 使用的模塊,右側表示模塊對應的注意力掩碼。

圖 4:輸入圖像(左)和(大型)注意力模塊在輸入圖像上生成的注意力掩碼。未對注意力掩碼輸出進行懲罰時,注意力掩碼帶有雜訊,在背景區域輸出響應(中)。對注意力掩碼輸出進行懲罰給出了減少無關注意力的信號(右)。

表 2:頂尖模型在 CLEVR 數據集上的性能對比。該論文提出的模型性能良好,且保持模型的透明度。該模型在 Query 問題上實現了當前最優性能,在其他領域也具備很強的競爭力。TbD 模型訓練時未對輸出注意力掩碼執行正則化,+ reg 表示使用了正則化。+ hres 表示模型訓練時使用了更高解析度 28 × 28 的特徵地圖,而不是 14 × 14。

論文:Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning

論文鏈接:https://arxiv.org/abs/1803.05268v1

摘要:視覺問答需要對圖像進行高階推理,這是機器系統遵循複雜指令所需的基本能力。最近,模塊網路(modular network)展現出其執行視覺推理任務的高效性。儘管模塊網路最初設計時具備一定程度的模型透明度,但其在複雜視覺推理基準任務上的表現並不好。當前最優方法不提供理解推理過程的有效機制。本論文中,我們縮小了可解釋性模型和當前最優視覺推理方法的差距,並提出了一組視覺推理原語,把它們組合為模型,可以明確可解釋的方式執行複雜的推理任務。原語輸出的準確度和可解釋性使其具備診斷所得模型孰優孰劣的無與倫比能力。我們同樣關鍵地展示了這些原語的高性能,它們在 CLEVR 數據集上達到了當前最優的準確率 99.1%。我們還展示了該模型在提供少量包含新型目標屬性的數據時能夠高效學習泛化表徵。在 CoGenT 泛化任務上,我們的模型比當前最優的模型提升了超過 20 個百分點。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

你的加密貨幣有價值嗎?這裡有一個深度學習ICO詐騙鑒別系統
從論文到測試:Facebook Detectron開源項目初探

TAG:機器之心 |