當前位置:
首頁 > 知識 > DeepMind提出關係RNN:記憶模塊RMC解決關係推理難題

DeepMind提出關係RNN:記憶模塊RMC解決關係推理難題

選自arXiv

機器之心編譯

參與:路、思源

不久之前,DeepMind 和倫敦大學學院 CoMPLEX 的研究者提出一種關係循環神經網路,該網路利用一種新型記憶模塊 RMC 解決標準記憶架構難以執行關係推理任務的問題。該方法在強化學習領域(如 Mini PacMan)、程序評估和語言建模上獲得了很大進步,在 WikiText-103、Project Gutenberg 和 GigaWord 數據集上獲得了當前最優的結果。

論文:Relational recurrent neural networks

論文鏈接:https://arxiv.org/abs/1806.01822

摘要:基於記憶的神經網路通過長期記憶信息來建模時序數據。但是,目前尚不清楚它們是否具備對記憶信息執行複雜關係推理的能力。在本論文中,我們首先確認了標準記憶架構在執行需要深入理解實體連接方式的任務(即涉及關係推理的任務)時可能會比較困難。然後我們利用新的記憶模塊 Relational Memory Core(RMC)改進這些缺陷,RMC 使用 Multi-head 點積注意力令記憶相互影響。最後,我們在一系列任務上對 RMC 進行測試,這些任務可從跨序列信息的更強大關係推理中受益,測試結果表明在強化學習領域(如 Mini PacMan)、程序評估和語言建模上獲得了很大進步,在 WikiText-103、Project Gutenberg 和 GigaWord 數據集上獲得了當前最優的結果。

1 引言

人類使用複雜的記憶系統來獲取和推理重要信息,而無需過問信息最初被感知的時間 [1, 2]。在神經網路研究中,建模序列數據的成功方法也使用記憶系統,如 LSTM [3] 和記憶增強神經網路 [4–7]。憑藉增強記憶容量、隨時間有界的計算開銷和處理梯度消失的能力,這些網路學會關聯不同時間的事件,從而精通於存儲和檢索信息。

這裡我們提出:考慮記憶交互與信息存儲和檢索會有很大收穫。儘管當前模型可以學會分割和關聯分散式、向量化記憶,但它們並不擅長顯性地完成這些過程。我們假設擅長這麼做的模型可能會更好地理解記憶的關聯,從而獲得對時序數據進行關係推理的更強能力。我們首先通過一個強調序列信息的關係推理的演示任務展示了當前模型確實在這方面比較困難。而使用 Multi-head 點積注意力的新型 RMC 可使記憶交互,我們解決並分析了這個演示任務。之後我們應用 RMC 處理一系列任務(這些任務可能從更顯著的記憶交互中受益),從而得到了潛在增長的記憶容量,可處理隨時間的關係推理:在 Wikitext-103、Project Gutenberg、GigaWord 數據集上的部分可觀測強化學習任務、程序評估和語言建模任務。

3 模型

我們的主導設計原則是提供架構主幹網路,使模型可學習分割信息,並計算分割後信息之間的交互。為此我們結合了 LSTM 構造塊、記憶增強神經網路和非局部網路(具體來說是 Transformer seq2seq 模型 [19])以實現主體網路。與記憶增強架構類似,我們考慮使用固定的記憶單元集合,但是我們利用注意力機制進行記憶單元之間的交互。如前所述,我們的方法與之前的研究不同,我們在單個時間步上對記憶應用注意力機制,而且不跨越從所有之前的觀測中計算出的所有之前表徵。

圖 1:Relational Memory Core。(a)RMC 接受前一個記憶矩陣和輸入向量,並作為輸入,它們被傳輸至 MHDPA 模塊(A)。(b)利用 Query 逐行共享的權重 W^q、Key 逐行共享的權重 W^k 和 Value 逐行共享的權重 W^v,計算每個記憶單元的線性投影。(c)將 Query、key 和 Value 編譯成矩陣,計算 softmax(QK^T)V。該計算的輸出是一個新的記憶,其中的信息根據記憶的注意力權重進行混合。MLP 被逐行應用於 MHDPA 模塊的輸出(a),得到的記憶矩陣是門控矩陣,作為核心輸出或下一個記憶狀態。

圖 2:任務。我們在一系列監督和強化學習任務上對 RMC 進行測試。Nth Farthest 演示任務和語言建模任務值得注意。前者中解決方案需要顯性的關係推理,因為該模型必須把向量之間的距離關係進行分類,而不是對向量本身進行分類。後者基於大量自然數據測試模型,使得我們可以進行與精心調整的模型之間的性能對比。

5 結果

圖 3:模型分析。每行描述了特定序列在每個時間步上的注意力矩陣。下方的文本即該序列的特定任務,序列被編碼,並作為模型輸入。我們把任務中引用的向量標紅:即如果模型選擇離向量 7 第 2 遠的向量,則標紅的是向量 7 中被輸入到模型的時間點。單個注意力矩陣展示了從一個特定記憶單元(y 軸)到另一個記憶單元(列)的注意力權重,或者輸入(offset 列),數字表示記憶單元,「input」表示輸入詞嵌入。

表 1:在程序評估和記憶任務上的每字元測試準確率。

表 2:在 WikiText-103、Project Gutenberg 和 GigaWord v5 數據集上的驗證困惑度和測試困惑度。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

清華等機構提出基於內部一致性的行人檢索方法,實現當前最優
生產級深度學習的開發經驗分享:數據集的構建和提升是關鍵

TAG:機器之心 |