當前位置:
首頁 > 知識 > 谷歌全新神經網路架構Transformer:基於自注意力機制,擅長自然語言理解

谷歌全新神經網路架構Transformer:基於自注意力機制,擅長自然語言理解

選自Google Research Blog

機器之心編譯

參與:路雪、黃小天

近日,繼論文《Attention Is All You Need》之後,谷歌在研究博客撰文對 Transformer 作了更詳細的介紹。Transformer 是一個基於自注意力機制的全新神經網路架構,擅長處理語言理解任務,所需算力更少,進而把訓練速度提升了一個數量級。此外,谷歌認為 Transformer 潛力巨大,它已被用於自然語言處理之外的圖像和視頻處理任務。

神經網路,尤其是循環神經網路(RNN),目前是處理自然語言理解任務(比如語言建模、機器翻譯、問答)的核心方法。我們在論文《Attention Is All You Need》中介紹了 Transformer,一個基於自注意力機制的全新神經網路架構,我們相信它非常適合自然語言理解。

我們的論文表明,在學術性的英語轉德語與英語轉法語翻譯基準方面,Transformer 性能優於循環與卷積神經網路。除卻更高的翻譯質量,Transformer 需要更少的訓練算力,更適合現代機器學習硬體,並且把訓練速度提升了一個數量級。

標準 WMT newstest2014 英語轉德語翻譯基準上單個模型的 BLEU 分值(越高越好)。

標準 WMT newstest2014 英語轉法語翻譯基準上單個模型的 BLEU 分值(越高越好)

自然語言理解的準確度與效率

神經網路通常通過生成固定或可變長度的向量空間表徵來處理自然語言。從單個辭彙或者甚至是詞塊表徵開始,然後,集合周邊字詞的信息以確定語境中給定語言的意義。比如,確定語句「I arrived at the bank after crossing the…」中單詞「bank」的最可能的意義與適當的表徵,需要知道該語句的結尾是「... road.」還是「... river.」。

近年來,RNN 在翻譯、從左到右或從右到左形式的序列性語言處理方面已上升為經典網路架構。一次讀取一個單詞迫使 RNN 執行多步操作以做出決策,這些決策依賴於彼此相距很遠的單詞。在上述的實例處理中,RNN 只能在讀取完「bank」與「river」之間的每個單詞之後,確定「bank」有可能是指河岸「the bank of a river」。先前的研究已表明,粗略來講,這些決策需要的步驟越多,RNN 學習如何做出這些決策的困難就越大。

RNN 的序列性同樣也使其全面利用現代快速的計算設備變的更加困難,比如 TPU 和 GPU(擅長並行計算而不是串列計算)。卷積神經網路(CNN)相較於 RNN 序列性更低,但是在 CNN 架構比如 ByteNet 或 ConvS2S 中,集合輸入中較遠部分的信息所需的步驟數量依然隨著距離的增加而增加。

Transformer

相比之下,Transformer 僅執行固定數量的少量步驟(根據經驗選擇)。每一步里,Transformer 使用一個自注意力機制,該機制可對句子中所有單詞之間的關係直接進行建模,而無需考慮各自的位置。在上述示例「I arrived at the bank after crossing the river」中,為了確定單詞「bank」指的是河岸,不是銀行,Transformer 需要學習立刻注意單詞「river」,並在一步中作出決策。實際上,在我們的英法翻譯模型中,我們明確地觀察到了這一行為。

更具體來說,要計算給定單詞(比如「bank」)的下一個表徵,Transformer 要把該單詞與句子中的其他單詞一一對比。對比結果就是句子中其他單詞的注意力分數。這些注意力分數決定其他單詞對」bank」的新表徵作出多少貢獻。在該示例中,計算」bank」的新表徵時,消歧單詞」river」能夠得到較高的注意力分數。之後,注意力分數用作所有單詞表徵的平均權重,這些表徵輸入全連接網路,以生成」bank」的新表徵,該表徵能夠反映出這句話說的是河岸。

下面的動圖展示了我們如何將 Transformer 應用到機器翻譯中。機器翻譯神經網路通常包括一個讀取輸入句子和生成句子表徵的編碼器。之後,解碼器參考編碼器生成的表徵,逐詞生成輸出句子。Transformer 最初生成每個詞的初始表徵或嵌入,由空心圓表示。然後,Transformer 使用自注意力機制從其他單詞處聚合信息,根據上下文的每一個單詞生成新的表徵,由實心圓表示。之後,這一步並行重複多次,連續生成所有單詞的新表徵。

GIF/476K

解碼器的操作與此類似,但是每次只按照從左到右的順序生成一個單詞。它不僅注意之前生成的單詞,還會注意編碼器生成的最終表徵。

信息流

除了計算性能和更高的準確度,Transformer 另一個有意思的方面是我們能可視化網路關注句子的哪些其他部分,尤其是在處理或翻譯一個給定詞時,因此我們可以深入了解信息是如何通過網路傳播的。

為了說明這一點,我們選擇了一個對機器翻譯系統來說十分具有挑戰的任務,即指代消解(coreference resolution)。我們首先觀察下面的英文句子及其法語譯文:

很明顯第一個語句中「it」指代的是動物,第二句中的「it」指代的是街道。當我們將該句子翻譯為法語或德語時,「it」的翻譯取決於它所指代名詞的詞性,而法語中「動物」和「街道」的詞性是不同的。與目前谷歌翻譯模型不同,Transformer 能將這些句子正確地翻譯為法語。在計算單詞「it」最後的表徵時,可視化編碼器注意的單詞將有助於理解網路是如何做出決定的。在其中一個步驟中,Transformer 清楚地識別「it」可能指代的名詞是什麼,並且不同的注意力反映了系統在不同語境中的選擇。

在英語到法語翻譯訓練中,單詞「it」在 Transformer 第 5 層到第 6 層的編碼器自注意力分布。

鑒於這種發現,Transformer 對經典語言分析任務也有十分優秀的性能,比如句法成分分析(syntactic constituency parsing)任務,這一在自然語言處理社區一直以高度專業化著稱的任務。

實際上,只需要一點修改,相同的網路就可以應用於英語到德語的翻譯,並且要勝過幾乎所有前面提出的成分分析方法。

後續發展

我們對 Transformer 未來的潛力十分自信,並且已經開始將它應用於其它在自然語言處理之外的任務,如圖像和視頻處理等。Tensor2Tensor 庫(谷歌最近的開源庫)為我們的實驗提供了極大的加速。實際上使用該軟體庫,我們通過少量命令迅速構建 Transformer 網路。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

三問 Christopher Manning:超越模型存在的語言之美
超少量數據訓練神經網路:IEEE論文提出徑向變換實現圖像增強
PyTorch和TensorFlow:九項對比讀各自長項短板
英特爾發布Movidius Myriad X VPU:提出神經計算引擎
斯坦福大學《語音與語言處理》第三版:NLP必讀書籍

TAG:機器之心 |

您可能感興趣

擅長用濕畫法表現氛圍的水彩畫家Miguel Linares Ríos
擅長女性繪畫 法國畫家Emile Vernon
爸爸最擅長做的事《What Daddies Do Best》
Alexander McQueen時裝系列混搭是一貫擅長的技能還有皮革束縛帶
廣告業變了,擅長拍廣告長片的獨立創意機構 Pereira O』Dell 談的「娛樂營銷」是怎麼回事?
Yann LeCun卸任FAIR負責人:「我更擅長做研究」
依舊是擅長的解構主義| Maison Margiela 2019春夏
Ralph Lauren時裝系列黑與白是主色調高雅的形象是品牌一貫的擅長
LoveLive!星座未覺醒,你擅長體育、生物嗎?
EXO參加《sukkiri》笑料頻出,最不擅長打保齡球的是?
「AI比人更擅長妥協」Nature子刊全新機器學習演算法探討人機合作
華為Mate 20 Pro相機怎樣?擅長拍風景,弱光毫不遜色
澳洲驚現「肌肉袋鼠」 擅長拳擊 能單手捏扁鐵桶
在不溫不火的 VR 行業,擅長做爆款的小米能搞火 Oculus Go 么?
EDG被讓一追二 「EDG最擅長的運營沒了」「Meiko指揮問題太大」
美版知乎quora:哪些是中國人不擅長的
《擅長捉弄的高木同學》現場黑板美術繪畫 & PR自行車
LOL洲際賽:LCK狀態爆炸三局淘汰LMS 玩家:韓國隊擅長隱藏實力
(中英文對照)quora老外回答中國人為什麼如此擅長抄襲
中二病也要談戀愛 Cosplay 很擅長賣萌的小姐姐