學界 | Bengio等提出稀疏注意力回溯：長期依賴關係建模的更一般化機制

科技 10-24

選自 arXiv

作者：

Nan Rosemary Ke 等

機器之心編譯

參與：

Geek AI、王淑婷

訓練循環神經網路的常規做法是利用基於時間的反向傳播演算法，該演算法在處理長序列時計算開銷十分昂貴，甚至不可行。針對這一問題，本文提出了一種新的演算法SAB，通過提醒機制實現時序信用分配。

在稀疏性限制最大的條件下（不利用過去的經驗），SAB 將退化為使用常規的靜態神經網路。在稀疏性限制最小的條件下（利用過去所有的經驗），SAB 將退化為完全使用自注意力機制。

該方法在涉及長期依賴關係的任務中比 BPTT 和截斷的 BPTT 相當甚至更優。

人類對與當前心理狀態相關的很久之前的事件有很強的記憶能力（Ciaramelli et al., 2008）。大多數關於記憶的實驗和理論分析都集中在理解形成記憶和回憶的精細路徑上。然而，自動化的提醒機制（當記憶湧入腦海），會對認知有很大的影響。提醒機制通常是由檢索時出現的上下文特徵觸發的，這些特徵與被記憶的顯著特徵相匹配（Berntsen et al., 2013; Wharton et al., 1996），它通常更容易在意料之外的事件之後被觸發（Read & Cesa, 1991）。因此，一個人當前的理解狀態可以觸發對過去狀態的回憶。提醒機制有時可能會提供一些無關的信息導致注意力被分散（Forbus et al., 1995; Novick, 1988），但是它也可以通過提供決策所必需的信息，在持續的認知過程中發揮有效的計算作用（Benjamin & Ross, 2010）。

在本文中，我們對提醒機制的另一個可能的作用進行了研究：長時間跨度的信用分配。我們不妨思考一下下面的場景：當你在高速公路上開車時，你聽到了一種異常的爆炸聲。但是仍然不以為意，直到你停下來加油時發現輪胎癟了。然後你突然想起了在開車時聽到的爆炸聲。這樣的回想能夠幫助你確定爆胎的原因，並可能導致突觸變化。而由於這種變化，在以後開車時聽到這種爆炸聲，你的處理方式可能會不一樣。信用分配是機器學習領域的關鍵問題。反向傳播演算法實質上執行了信用分配機制。儘管在功能上等同於反向傳播的信用分配機制已經取得了一些進展（Lee et al., 2014; Scellier & Bengio, 2016; Whittington & Bogacz, 2017），但對於大腦如何實現與用於訓練循環神經網路（RNN）的反向傳播相類似的機制，人們尚不清楚。在本文中，我們對以下假設進行了探究：相關聯的提醒過程可以在長時間跨度上的信用傳播中發揮重要作用。這也就是在 RNN 中學習長期依賴的問題，即學會利用在時間上跨度很大的事件和變數之間的統計依賴關係。

論文：Sparse Attentive Backtracking: Temporal Credit Assignment Through Reminding

論文地址：https://arxiv.org/pdf/1809.03702v1.pdf

摘要：

在擴展的時間序列中學習長期依賴需要對過去很久的事件進行信用分配。訓練循環神經網

絡最常見的做法是基於時間的反向傳播演算法（BPTT），它要求信用信息在前向計算的每一步中能夠被反向傳播，這可能需要花費數千甚至數百萬個時間步。當 BPTT 被用於處理長序列時，這個過程的計算開銷會變得十分高昂，甚至根本不可行。重要的是，生物大腦並不太可能在很長的內部狀態序列（比如幾天、幾個月、甚至好幾年）中執行如此詳細具體的反向回放過程。然而，人類經常被提醒想起過去的記憶或與當前精神狀態相關的精神狀態。我們假設過去和現在之間的這種記憶關聯可以通過任意長的序列被用於信用分配，並將分配給當前狀態的信用傳播給相關的過去的狀態。基於這一原理，我們研究出了一種新的演算法，它只通過少數幾個時序跳躍鏈接進行反向傳播，通過一種學習到的注意力機制實現，該注意力機制將當前狀態與相關的過去狀態關聯起來。我們通過實驗證明，該方法在涉及長期依賴關係的任務中與常規的 BPTT 和截斷的 BPTT 性能相當甚至更優，但我們的方法並不需要對整個狀態歷史進行生物學上不太可能的反向回放過程。此外，我們還證明該方法對於較長序列的遷移明顯優於使用 BPTT 訓練的 LSTM 和使用完全自注意力機制訓練的 LSTM。

稀疏注意力回溯

請注意，人類使用的是過去信用分配經驗中一個非常稀疏的子集，它可以直接隨機利用過去的經驗及其與當前狀態的相關性，我們提出了稀疏注意力回溯（SAB）機制：它是針對神經網路模型（如 RNN）中信用分配問題相關過去狀態的學習、動態、稀疏的訪問方式及回放原理。

在稀疏性限制最大的條件下（不利用過去的經驗），SAB 將退化為使用常規的靜態神經網路。在稀疏性限制最小的條件下（利用過去所有的經驗），SAB 將退化為完全使用自注意力機制。在本文中，為了達到目的，我們通過特定種類的增強 LSTM 模型探究前面二者之間的差距。但是 SAB 機制並不局限於任何特定的架構，在這裡介紹的增強 LSTM 純粹被用來探究和驗證我們在第 1 節中作出的假設。

一般來說，一個 SAB 神經網路需要做到以下兩件事：

在前饋傳播過程中，管理一個內存單元，並在每個時間步中最多選擇過去記憶中的一個稀疏子集。我們將這個過程稱之為稀疏檢索。

在反向傳播過程中，將梯度僅僅傳播到記憶的稀疏子集及其局部環境中。我們稱之為稀疏回放。

圖 1: 此圖展示了在 ktop = 3, katt = 2, ktrunc = 2 的情況下 SAB 中的前饋傳播過程。該過程將稀疏檢索（第 3.1 節）和對記憶的總結引入了下一個 RNN 隱藏狀態。灰色箭頭顯示了注意力權重 a（t）是如何被估計出來的，首先通過廣播和連接所有記憶的集合 M 當前的臨時隱藏狀態 h?(t)，並且通過多層感知機計算出原始注意力權重。稀疏處理器會選擇出最大的 ktop 個原始注意力權重，並進行歸一化處理，而其它的注意力權值則表示為 0。紅色箭頭顯示了對應非零稀疏化注意力權值被加權求和的過程，然後將其添加到臨時隱藏狀態 h?(t) 中去計算最終的隱藏狀態 h (t)。

實驗設置和實驗結果

圖 2: 此圖展示了在 ktop = 3, katt = 2, ktrunc = 2 的情況下 SAB 中的反向傳播過程。梯度被傳遞給從前向傳播選擇出來的微觀狀態，同時在這些微觀狀態周圍執行一個局部被截斷的反向傳播過程。藍色的箭頭表示反向傳播中的提督傳播流。紅色叉叉表示 TBPTT（時間截斷的反向傳播）的截斷點，梯度在這些點停止被反向傳播。