當前位置:
首頁 > 科技 > MIT:AI 如同人類的推理機制來解決問題

MIT:AI 如同人類的推理機制來解決問題

麻省理工學院(MIT)林肯實驗室智能和決策技術小組開發的模型為理解神經網路如何做出決策設立了新標準。

圖1:TbD-net解決視覺推理問題的方法是,將問題分成一系列子任務。每個子任務的答案/結果在顯示相關物體的熱圖中顯示,這樣分析員就能看到網路的推理過程。

有人給女孩看了一張圖片,上面有各種形狀,讓她找到紅色的大圓圈。為了找到答案,她經歷了幾個推理步驟:先找到所有大的物體,接著找到紅色的物體;最後,挑出是圓形的紅色大物體。

我們通過推理來學習如何解釋這個世界,神經網路也是如此。現在,麻省理工學院林肯實驗室智能和決策技術小組的一組研究人員開發出了一個神經網路,它可以執行如同人類的推理步驟,以回答關於圖像內容的問題。該模型名為「透明設計網路」(TbD-net),它在解決問題時可視化呈現推理過程,讓人類分析員得以解釋其決策過程。該模型的表現勝過如今最好的視覺推理神經網路。

了解神經網路如何做出決策一直是AI研究人員長期以來面臨的挑戰。正如其名稱中的「神經」這部分表明的那樣,神經網路是受大腦啟發的AI系統,旨在複製人類學習的方式。它們由輸入層和輸出層以及介於兩者之間負責將輸入轉換成正確輸出的層組成。一些深度神經網路已變得如此複雜,以至於幾乎不可能解釋這個轉換過程。這就是為什麼深度神經網路被稱為「黑盒子」系統,即使對製造它們的工程師來說,具體的內部機理也是不透明的。

藉助TbD-net,開發人員旨在使這樣的內部機理透明化。透明之所以很重要,是由於這讓人類得以解釋AI的結果。

比如說,知道自動駕駛汽車中所使用的神經網路認為行人和停車標誌到底有什麼差異、它在推理過程的哪個環節上明白這種差異很重要。如果研究人員搞清楚了這些,就可以教神經網路糾正任何不正確的假設。不過TbD-net的開發人員表示,如今最好的神經網路缺乏一種有效的機制讓人類能夠理解神經網路的推理過程。

Ryan Soklaski和另外幾名研究員Arjun Majumdar、David Mascharka和Philip Tran一同建成了TbD-net,他說:「提高視覺推理的性能這方面取得了進展,不過以犧牲可解釋性為代價。」

林肯實驗室的研究小組藉助TbD-net,縮小了性能與可解釋性之間的差距。他們開發的系統的一個關鍵是「模塊」集合,而模塊是一種小型神經網路,專門用於執行特定的子任務。TbD-net被問到關於圖像的視覺推理問題時,它將問題先分解成多個子任務,並分配適當的模塊以完成各自的子任務。就像裝配線上的工人一樣,每個模塊建立在前一個模塊搞清楚結果的基礎上,最後得出最終的正確答案。總體上來說,TbD-net使用了解釋人類語言問題後將那些句子分解成子任務的AI技術,還使用了解釋圖像的多種計算機視覺AI技術。

Majumdar說:「將一系列複雜的推理分解成一系列較小的子問題,每個子問題都可以獨立解決並組合,這是一種強大而直觀的推理手段。」

每個模塊的輸出用該研究小組所說的「注意力掩碼」(attention mask)來可視化描述。注意力掩碼顯示圖像中模塊認為是正確答案的物體上方的熱圖blob。這種可視化使人類分析員能夠看到模塊如何解釋圖像。

舉例來說,對TbD-net提出以下問題:「在這個圖像中,那個大大的金屬立方體是什麼顏色?」為了回答這個問題,第一個模塊只負責找到大物體,生成那些大物體高亮顯示的注意力掩碼。下一個模塊獲得該輸出後,從被上一個模塊認為個頭大的那些物體中找出又是金屬的。該模塊的輸出被發送到下一個模塊,這個模塊在那些很大的金屬物體中找出哪些又是立方體。最後,這個輸出被發送到可以確定物體顏色的模塊。TbD-net的最終輸出是「紅色」,這是問題的正確答案。

測試時發現,TbD-net取得的成績超過了性能最佳的視覺推理模型。研究人員使用一個視覺問答數據集評估了該模型,該數據集包括70000個訓練圖像和700000個問題,還使用了包括15000個圖像和150000個問題的測試集和驗證集。初始模型用該數據集獲得了98.7%的測試準確度,據研究人員聲稱,這遠高於其他基於神經模塊網路的方法。

重要的是,由於模塊具有透明化這個重要優勢,研究人員之後可以改進這些結果。只要查看模塊生成的注意力掩碼,他們可以看到哪個環節出了問題,並改進模型。最終結果是取得了準確度高達99.1%的超高性能。

Mascharka說:「我們的模型在視覺推理過程的每個階段都提供了直觀的、易於解釋的輸出。」

如果部署深度學習演算法以幫助人類處理複雜的實際任務,可解釋性來得尤為重要。為了確保這種系統具有可信性,用戶需要能夠檢查推理過程,那樣他們才能夠理解模型為何做出錯誤的預測、如何做出錯誤的預測。

智能和決策技術小組的負責人Paul Metzger表示:「林肯實驗室致力於成為應用機器學習研究和AI的世界領導者,以促進人機協作」,這項工作是其中的一部分。

這項研究成果的細節在今年夏天召開的計算機視覺和模式識別大會(CVPR)上發表的論文《透明設計:縮小視覺推理的性能與可解釋性之間的差距》(https://arxiv.org/pdf/1803.05268.pdf)中進行了描述。

論文全文:


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雲頭條 的精彩文章:

Kafka 已站穩了腳跟!
啟明星辰 2683 萬元中標青海省政務雲安全保障系統

TAG:雲頭條 |