伯克利：模塊化神經網路學習複雜推理（論文下載）

新聞 06-22

新智元編譯

打開新智元微信公眾號，直接回復【NMN】或【神經模塊網路】下載涉及的3篇論文

伯克利：模塊化神經網路學習複雜推理（論文下載）

假設我們要做一個家庭機器人，我們希望他能夠回答有關周圍環境的問題。我們可能會問他這樣的問題：

伯克利：模塊化神經網路學習複雜推理（論文下載）

左：這是什麼？右：圖中跟藍色圓柱體大小相同的物體是什麼顏色的？

我們該怎樣確保機器人能夠正確回答這些問題呢？深度學習的標準方法是收集大量的問題、圖像和答案的數據集，然後訓練一個神經網路去直接將問題和圖映射到答案。如果大多數問題是類似左圖的問題，那麼我們要解決的是熟悉的圖像識別問題，這類整體式的方法是相當有效的：

伯克利：模塊化神經網路學習複雜推理（論文下載）

回答問題：這是什麼？

但對右邊那類的問題，就不是那麼簡單了：

伯克利：模塊化神經網路學習複雜推理（論文下載）

回答問題：跟藍色圓柱體大小相同的物體是什麼顏色的？

這裡，我們訓練的網路已經棄療，用圖中最多的顏色（藍色）作為猜測。為什麼這個問題難了許多？哪怕我們的圖像更加清楚簡潔，這個問題也還是需要多步的推理：它不是簡單識別圖像中主要對象的問題，模型必須先找到藍色的圓柱體，然後找到跟它大小一致的另一個物體，然後確定這個物體的顏色。這是一種複雜的計算，而且是針對被提問的特定問題的特定計算。不同的問題需要用不同的步驟來解決。

深度學習中的主流範式是「一刀切」的方法：對於我們想要解決的任何問題，我們會寫一個固定的模型架構，希望它能捕捉到有關輸入和輸出之間關係的一切，並從有注釋的訓練數據為這個固定的模型學習參數。

但真實世界中的推理不能以這種方式工作：它涉及各種不同的能力，混合了我們在外部世界遇到的每一個新的挑戰。我們需要一個可以動態地確定如何對前面提出的問題進行推理的模型——一個可以在運行中選擇自己的結構的網路。在這篇文章中，我們將討論一類被稱為神經模塊網路（neural module networks , NMNs）的模型，它能將這種更靈活的方法結合到解決方案中，同時保持深度學習的強大效用。

前文提到，在回答上述問題時涉及3個不同的步驟：找到一個藍色圓柱體，找到與它大小相同的其他物體，確定這個物體的顏色。這個過程可以用下圖表示：

伯克利：模塊化神經網路學習複雜推理（論文下載）

一旦問題發生改變，就可能導致一系列不同的步驟。比如說，假如我們問「圖中與球的大小相同的物體有多少個？」，步驟就會變成：

伯克利：模塊化神經網路學習複雜推理（論文下載）

基本的操作，例如「比較大小」，在不同的問題中是共享的，但是使用的方式不同。NMN的關鍵思想是使這種共享成為顯式：我們使用兩個不同的網路結構去回答上面的兩個問題，但兩個網路中包含相同的基本操作的部分權重是共享的。

伯克利：模塊化神經網路學習複雜推理（論文下載）

那麼，怎樣學習一個這樣的模型？我們實際上是同時訓練大量的不同的網路，並在適當的時候嘗試將它們的參數結合起來，而不是在大量的輸入/輸出對上訓練一個單一的網路。

伯克利：模塊化神經網路學習複雜推理（論文下載）

圖：最近的一些深度學習架構，包括DyNet和TensorFlow Fold，都是以這種動態計算的方式設計的。

這樣的訓練過程結束後，我們得到的不是一個單一的深度網路，而是一個神經「模塊」（modules）的集合，每一個模塊都實現推理的一個步驟。當我們想在新的問題上使用已經訓練的模型時，我們可以動態地組合這些模塊，使之成為一個針對該問題的新的網路結構。

這個過程中值得注意的是，我們不需要為單個模塊提供低級的監督：模型不會將「藍色物體」或「左側」關係作為孤立的示例。模塊只在更大的組合的結構中學習，只有（問題，答案）的配對作為監督。但訓練過程能夠自動推理結構中的部件和其負責的計算之間的正確關係：

伯克利：模塊化神經網路學習複雜推理（論文下載）

問題：藍色圓柱體與紅色金屬塊右邊的大塊材質相同嗎？

同樣的過程也對有關更逼真的照片的回答工作，甚至對資料庫等其他知識來源也工作：

伯克利：模塊化神經網路學習複雜推理（論文下載）

問題：床腳後面有什麼？佛羅里達州有哪些海灘？

這個過程的關鍵要素是如上所述的「推理藍圖」的集合。這些藍圖可以告訴我們，每個問題的網路應該怎樣布局，以及不同的問題之間如何相互關聯。但這些藍圖是從哪裡來的呢？

在有關這些模型的初步工作中，我們發現特定問題（question-specific）的神經網路的設計問題和語法結構的分析問題之間有驚人的關聯。語言學家很早就發現，問題的語法與回答問題所需的計算步驟的順序（sequence）密切相關。多虧自然語言處理方面的最新進展，我們得以使用現成的語法分析工具來自動地提供這些藍圖的類似版本。

但從語言結構準確映射到網路結構仍然是一個具有挑戰性的問題，轉換的過程容易出錯。在後來的研究中，我們不再依賴這種語言學分析，而是使用由人類專家創造的數據，他們用理想化的推理藍圖直接為一系列問題進行注釋。通過學習模仿這些人類的方法，我們的模型能夠大大提高預測的質量。更令人驚訝的是，當我們採用模仿人類專家的模式訓練，並允許模型對這些專家的預測進行自己的修改，它可能在許多問題上找到比專家們的更好的解決方案。

儘管近年來深度學習方法有許多顯著的成功，但仍有許多挑戰，例如 few-shot 學習和複雜推理。但這些問題正是哪些更加結構化的經典技術，例如語義分析（semantic parsing）和程序歸納（program induction）真正起作用的地方。神經模塊網路（NMN）在這兩個挑戰中都有優勢：離散組合的靈活性和數據有效性，以及深度網路的能力。NMN已經在視覺和文本推理的許多任務上取得成功，我們很期待將其應用於其他AI問題。

本文基於以下論文（打開新智元微信公眾號，直接回復【NMN】或【神經模塊網路】下載論文）：

Neural Module Networks. Jacob Andreas, Marcus Rohrbach, Trevor Darrell and Dan Klein. CVPR 2016. (arXiv)
Learning to Compose Neural Networks for Question Answering. Jacob Andreas, Marcus Rohrbach, Trevor Darrell and Dan Klein. NAACL 2016. (arXiv)
Modeling Relationships in Referential Expressions with Compositional Modular Networks. Ronghang Hu, Marcus Rohrbach, Jacob Andreas, Trevor Darrell and Kate Saenko. CVPR 2017. (arXiv)

作者：Jacob Andreas

協作寫作者：Ronghang Hu, Marcus Rohrbach, Trevor Darrell, Dan Klein & Kate Saenko

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※有道周楓：未來三年，神經網路翻譯將滿足90%以上的翻譯需求
※「谷歌招聘」推出，垂直搜索AI篩選，迥異百度招聘
※「重磅」李飛飛高徒Karpathy加入特斯拉，主管人工智慧部門
※「神經網路為什麼過擬合？」理解深度學習需要重新思考「記憶」
※Facebook對話AI發展出人類無法理解語言，肇因兩個智能體參數跑偏

TAG:新智元 |

您可能感興趣

※一文讀懂人工神經網路學習原理
※加強道德課堂建設使學科核心素養理念落地生根——嵩山路學校道德課堂檢查獲好評
※網路學佛的利與弊
※九江雙語實驗學校開展第三周語文教研觀摩網路學習培訓活動
※推薦幾個內容豐富、不同特點的網路學習平台
※如何利用現代網路學習
※菡萏花開05（視頻）‖ 網路學佛答疑
※紐約大學：參考兒童認知發展，通過簡單神經網路學習歸納偏置
※「卡拉是條狗」導演路學長葬禮，管虎、王小帥、田壯壯送行悼念
※初學書法：不走彎路學書法
※國家教育行政學院開通督學網路學院
※論語啟示錄80：向子路學執行力
※網路學佛需注意二十點
※乳山市黃山路學校舉行科普報告活動
※素描篇網路學員：年近50歲大哥超級努力作品展示
※「絲路學·國際論壇」在上海召開
※收藏 | 目標檢測網路學習總結（RCNN --> YOLO V3），
※爆笑漫畫：劉姥姥故意套路學生，布置奇葩作文讓學生大喜大憂
※台灣婦女網路學習假鈔技術，換取真鈔獲刑
※盤點下這些年參加過的網路學習課程