注意力機制在自然語言處理中的應用

知識 03-29

近年來，深度學習的研究越來越深入，在各個領域也都獲得了不少突破性的進展。基於注意力（attention）機制的神經網路成為了最近神經網路研究的一個熱點，本人最近也學習了一些基於attention機制的神經網路在自然語言處理（NLP）領域的論文，現在來對attention在NLP中的應用進行一個總結，和大家一起分享。

1 Attention研究進展

Attention機制最早是在視覺圖像領域提出來的，應該是在九幾年思想就提出來了，但是真正火起來應該算是google mind團隊的這篇論文《Recurrent Models of Visual Attention》[14]，他們在RNN模型上使用了attention機制來進行圖像分類。隨後，Bahdanau等人在論文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中，使用類似attention的機制在機器翻譯任務上將翻譯和對齊同時進行，他們的工作算是是第一個提出attention機制應用到NLP領域中。接著類似的基於attention機制的RNN模型擴展開始應用到各種NLP任務中。最近，如何在CNN中使用attention機制也成為了大家的研究熱點。下圖表示了attention研究進展的大概趨勢。

2 Recurrent Models of Visual Attention

在介紹NLP中的Attention之前，我想大致說一下圖像中使用attention的思想。就具代表性的這篇論文《Recurrent Models of Visual Attention》 [14]，他們研究的動機其實也是受到人類注意力機制的啟發。人們在進行觀察圖像的時候，其實並不是一次就把整幅圖像的每個位置像素都看過，大多是根據需求將注意力集中到圖像的特定部分。而且人類會根據之前觀察的圖像學習到未來要觀察圖像注意力應該集中的位置。下圖是這篇論文的核心模型示意圖。

該模型是在傳統的RNN上加入了attention機制（即紅圈圈出來的部分），通過attention去學習一幅圖像要處理的部分，每次當前狀態，都會根據前一個狀態學習得到的要關注的位置l和當前輸入的圖像，去處理注意力部分像素，而不是圖像的全部像素。這樣的好處就是更少的像素需要處理，減少了任務的複雜度。可以看到圖像中應用attention和人類的注意力機制是很類似的，接下來我們看看在NLP中使用的attention。

3 Attention-based RNN in NLP

3.1 Neural Machine Translation by Jointly Learning to Align and Translate [1]

這篇論文算是在NLP中第一個使用attention機制的工作。他們把attention機制用到了神經網路機器翻譯（NMT）上，NMT其實就是一個典型的sequence to sequence模型，也就是一個encoder to decoder模型，傳統的NMT使用兩個RNN，一個RNN對源語言進行編碼，將源語言編碼到一個固定維度的中間向量，然後在使用一個RNN進行解碼翻譯到目標語言，傳統的模型如下圖：

這篇論文提出了基於attention機制的NMT，模型大致如下圖：

圖中我並沒有把解碼器中的所有連線畫玩，只畫了前兩個詞，後面的詞其實都一樣。可以看到基於attention的NMT在傳統的基礎上，它把源語言端的每個詞學到的表達（傳統的只有最後一個詞後學到的表達）和當前要預測翻譯的詞聯繫了起來，這樣的聯繫就是通過他們設計的attention進行的，在模型訓練好後，根據attention矩陣，我們就可以得到源語言和目標語言的對齊矩陣了。具體論文的attention設計部分如下：

可以看到他們是使用一個感知機公式來將目標語言和源語言的每個詞聯繫了起來，然後通過soft函數將其歸一化得到一個概率分布，就是attention矩陣。

從結果來看相比傳統的NMT（RNNsearch是attention NMT，RNNenc是傳統NMT）效果提升了不少，最大的特點還在於它可以可視化對齊，並且在長句的處理上更有優勢。

3.2 Effective Approaches to Attention-based Neural Machine Translation [2]

這篇論文是繼上一篇論文後，一篇很具代表性的論文，他們的工作告訴了大家attention在RNN中可以如何進行擴展，這篇論文對後續各種基於attention的模型在NLP應用起到了很大的促進作用。在論文中他們提出了兩種attention機制，一種是全局（global）機制，一種是局部（local）機制。

首先我們來看看global機制的attention，其實這和上一篇論文提出的attention的思路是一樣的，它都是對源語言對所有詞進行處理，不同的是在計算attention矩陣值的時候，他提出了幾種簡單的擴展版本。

在他們最後的實驗中general的計算方法效果是最好的。

我們再來看一下他們提出的local版本。主要思路是為了減少attention計算時的耗費，作者在計算attention時並不是去考慮源語言端的所有詞，而是根據一個預測函數，先預測當前解碼時要對齊的源語言端的位置Pt，然後通過上下文窗口，僅考慮窗口內的詞。

裡面給出了兩種預測方法，local-m和local-p，再計算最後的attention矩陣時，在原來的基礎上去乘了一個pt位置相關的高斯分布。作者的實驗結果是局部的比全局的attention效果好。

這篇論文最大的貢獻我覺得是首先告訴了我們可以如何擴展attention的計算方式，還有就是局部的attention方法。

4 Attention-based CNN in NLP

隨後基於Attention的RNN模型開始在NLP中廣泛應用，不僅僅是序列到序列模型，各種分類問題都可以使用這樣的模型。那麼在深度學習中與RNN同樣流行的卷積神經網路CNN是否也可以使用attention機制呢？《ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs》 [13]這篇論文就提出了3中在CNN中使用attention的方法，是attention在CNN中較早的探索性工作。