DeepMind提出關係RNN：構建關係推理模塊，強化學習利器

新聞 06-09

新智元編譯

來源：arxiv

編輯：肖琴

【新智元導讀】傳統的記憶架構做關係推理時有困難，DeepMind和倫敦大學學院的這篇論文提出關係推理模塊RMC，能夠在序列信息中執行關係推理，在WikiText-103, Project Gutenberg 和 GigaWord 數據集上達到了當前最佳性能。

論文：https://arxiv.org/pdf/1806.01822v1.pdf

DeepMind提出關係RNN：構建關係推理模塊，強化學習利器

基於記憶的神經網路通過利用長時間記憶信息的能力來建模時序數據。然而，目前還不清楚它們是否有能力利用它們記得的信息進行複雜的關係推理。

在這篇論文中，DeepMind和倫敦大學學院的研究人員首先證實一種直覺想法，即標準的記憶架構在一些涉及關係推理的任務上很困難。然後，研究者通過使用一個新的記憶模塊——Relational Memory Core（RMC）——來改進這種缺陷，該模塊採用multi-head dot product attention來允許記憶交互。

最後，研究者在一系列任務上測試RMC，這些任務可以從跨序列信息的更強大的關係推理中獲益，並且在RL領域（例如Mini PacMan）、程序評估和語言建模中顯示出巨大的受益，在WikiText-103、Project Gutenberg和GigaWord數據集上獲得state-of-the-art的結果。

DeepMind提出關係RNN：構建關係推理模塊，強化學習利器

關係記憶核心RMC

人類使用複雜的記憶系統來訪問和推理重要的信息，不管這些信息最初是什麼時候被感知到的。在神經網路研究中，許多成功的序列數據建模方法也使用了記憶系統（memory systems），例如LSTM和記憶增強的神經網路（memory-augmented neural networks）。通過增強記憶容量、隨時間的有限計算成本以及處理梯度消失的能力，這些網路學會了跨時間關聯事件，以便熟練地存儲和檢索信息。

在這裡，我們建議在考慮存儲和檢索的同時考慮記憶交互，這是卓有成效的。雖然目前的模型可以學習劃分和關聯分散式的、矢量化的記憶，但它們並不明顯地傾向於這樣做。我們假設，這樣的偏見可以讓一個模型更好地理解記憶是如何關聯的，因此可以讓它更好地進行關係推理。

首先，我們通過開發一個演示任務來強調順序信息的關係推理，證明當前的模型在這個領域中存在困難。使用新的關係記憶核心（ Relational Memory Core，RMC），利用multi-head dot product attention讓記憶彼此交互，我們解決並分析了這個問題。然後，我們將RMC應用到一系列任務中，這些任務可能會從更顯式的memory-memory 交互中獲益，因此，可能會增加隨時間推移的的關係推理能力：在Wikitext-103、Project Gutenberg和GigaWord數據集中，部分觀察到的強化學習任務、程序評估和語言建模。

關係推理（Relational reasoning）

我們認為關係推理是理解實體連接的方式的過程，並利用這種理解來實現更高階的目標。例如，考慮對各種樹與公園長椅之間的距離進行排序：將實體(樹和長椅)之間的關係(距離)進行比較，以得到解決方案；如果我們單獨考慮每個實體的屬性(位置)，則無法得到解決方案。

由於我們通常可以很流暢地定義什麼構成「實體」（entity）或「關係」（relation），因此我們可以想像一系列的神經網路誘導的偏見，可以用關係推理的語言表達出來。例如，可以用卷積核來計算一個感受野內的實體(像素)的關係(線性組合)。

在時域（temporal domain）中，關係推理可以包含在不同時間點比較和對比信息的能力。這裡，注意力機制隱式地執行某種形式的關係推理；如果先前的隱藏狀態被解釋為entity，那麼使用注意力來計算實體的加權和有助於消除RNN中存在的局部性偏差。

由於我們當前的架構解決複雜的時序任務，因此它們必須具備一些時間關係推理的能力。然而，目前還不清楚他們的歸納偏差是否受到限制，以及這些限制是否可以暴露在要求特定類型的時間關係推理的任務中。

模型

我們的指導設計原則是提供一個架構的主幹，在這個基礎上，模型可以學習如何劃分信息，以及如何計算劃分的信息之間的交互。為了實現這一點，我們從LSTM、 memory-augmented神經網路和non-local網路（特別是Transformer seq2seq模型）組裝構建塊。與記憶增強架構相似，我們考慮一組固定的memory slots；但是，我們允許使用注意里機制在memory slots之間進行交互。與之前的工作相反，我們在單個時間步上在記憶之間應用注意力，而不是跨過在先前的觀察中計算出來的所有先前的表徵。

DeepMind提出關係RNN：構建關係推理模塊，強化學習利器

圖1：Relational Memory Core

DeepMind提出關係RNN：構建關係推理模塊，強化學習利器

圖2：任務

我們在一組監督學習和強化學習任務中測試RMC。值得注意的是N?? Farthest的任務和語言建模。在前者中，解決方案需要顯式的關係推理，因為模型必須對向量之間的距離關係進行排序，而不是對向量本身排序。後者在大量自然數據上測試模型，並允許我們將性能與經過良好調優的模型進行比較。

實驗

這裡簡要介紹應用RMC的實驗任務，具體每個任務的詳細信息以及模型的超參數設置等請閱讀原論文。

說明性監督任務

N?? Farthest

第N個最遠的任務是為了強調跨時間的關係推理能力。輸入是隨機抽樣的向量序列，目標是對形式問題的回答：「距離向量m的第n個最遠的向量是什麼?」，其中向量的值、它們的ID、n和m都是每個序列隨機抽樣的。我們強調模型必須對向量之間的距離關係進行排序，而不是對向量本身。

程序評估

Learning to Execute（LTE）數據集由圖靈完整的偽代碼編程語言中的演算法片段組成，可分為三類：添加、控制和完整程序。輸入是表示這些代碼片段的字母數字辭彙表上的字元序列，目標是一個數字字元序列，它是給定編程輸入的執行輸出。考慮到這些片斷涉及變數的符號操作，我們認為它可能會影響模型的關係推理能力；由於符號運算符可以被解釋為在操作數上定義一個關係，成功的學習可以反映對這個關係的理解。為了評估經典序列任務的模型性能，我們還對記憶任務進行了評估，在這些任務中，輸出只是輸入的一種排列形式，而不是來自一組操作指令的評估。

強化學習

Mini Pacman with viewport

我們遵循文獻[23]中的Mini Pacman的表述。簡而言之， agent在被ghosts追趕時在迷宮中導航以收集食物。我們用一個視圖（viewport）來實現這個任務：圍繞agent的5×5窗口，包含感知輸入。因此，任務是部分可觀察的。agent必須預測記憶中ghosts的動態，並據此計劃導航，同時也要根據被拾取的食物的記憶信息。該任務要求在記憶空間中進行關係推理。

語言建模

最後，我們調查了基於辭彙的語言建模任務。