機器翻譯新突破！「普適注意力」模型：概念簡單參數少，性能大增

最新 08-27

來源：arxiv,新智元

目前，最先進的機器翻譯系統基於編碼器-解碼器架構，首先對輸入序列進行編碼，然後根據輸入編碼生成輸出序列。兩者都與注意機制介面有關，該機制基於解碼器狀態，對源令牌的固定編碼進行重新組合。

本文提出了一種替代方法，該方法於跨兩個序列的單個2D卷積神經網路。網路的每一層都根據當前的輸出序列重新編碼源令牌。因此，類似注意力的屬性在整個網路中普遍存在。我們的模型在實驗中表現出色，優於目前最先進的編碼器-解碼器系統，同時在概念上更簡單，參數更少。

「普適注意力」模型及原理

我們的模型中的卷積層使用隱性3×3濾波器，特徵僅根據先前的輸出符號計算。圖為經過一層（深藍色）和兩層（淺藍色）計算之後的感受野，以及正常3×3濾波器（灰色）的視野的隱藏部分。

上圖為具有兩個隱藏層的解碼器網路拓撲的圖示，底部和頂部的節點分別表示輸入和輸出。水平方向連接用於RNN，對角線方向連接用於卷積網路。在兩種情況下都會使用垂直方向的連接。參數跨時間步長（水平方向）共享，但不跨層（垂直方向）共享。

塊級（頂部）和每個塊（底部）內的DenseNet體系結構

令牌嵌入大小、層數（L）和增長率（g）的影響

無論是長句、短句，翻譯結果都更好

與現有最佳技術的比較

我們將結果與表3中的現有技術進行了比較，包括德-英翻譯（De-En）和英-德翻譯（En-De）。我們的模型名為Pervasive Attention。除非另有說明，我們使用最大似然估計（MLE）訓練所有模型的參數。對於一些模型，我們會另外報告通過序列水平估計（SLE，如強化學習方法）獲得的結果，我們通常直接針對優化BLEU量度，而不是正確翻譯的概率。

在不同句子序列長度上的表現

在上圖中，我們將翻譯質量視為句子長度的函數，並將我們的模型與RNNsearch、ConvS2S和Transformer進行比較。結果表明，我們的模型幾乎在所有句子長度上都得到了最好的結果，ConvS2S和Transformer只在最長的句子上表現更好。總的來說，我們的模型兼備RNNsearch在短句中的強大表現，同時也接近ConvS2S和Transformer在較長句子上的良好表現。

隱性的句子對齊