機器翻譯新突破：谷歌實現完全基於attention的翻譯架構

知識 06-15

選自arXiv

機器之心編譯

參與：吳攀、黃小天、李亞洲

近兩年來，機器翻譯的突破讓人目不暇接，從去年穀歌的顛覆性突破開始到一個月前 Facebook 的全新 CNN 翻譯技術，人工智慧的巴別塔正越建越高。近日，谷歌再次宣布又在機器翻譯上更進了一步，實現了完全基於 attention 的 Transformer 機器翻譯網路架構，並且還在 WMT 2014 的多種語言對的翻譯任務上超越了之前 Facebook 的成績，實現了新的最佳水平。機器之心對這篇研究論文進行了摘要介紹。

重磅 | 谷歌翻譯整合神經網路：機器翻譯實現顛覆性突破（附論文）

重磅 | Facebook 提出全新 CNN 機器翻譯：準確度超越谷歌而且還快九倍（已開源）

論文：Attention Is All You Need

論文鏈接：https://arxiv.org/abs/1706.03762

在編碼器-解碼器配置中，顯性序列顯性轉導模型（dominant sequence transduction model）基於複雜的 RNN 或 CNN。表現最佳的模型也需通過注意力機制（attention mechanism）連接編碼器和解碼器。我們提出了一種新型的簡單網路架構——Transformer，它完全基於注意力機制，徹底放棄了循環和卷積。兩項機器翻譯任務的實驗表明，這些模型的翻譯質量更優，同時更並行，所需訓練時間也大大減少。我們的模型在 WMT 2014 英語轉德語的翻譯任務中取得了 BLEU 得分 28.4 的成績，領先當前現有的最佳結果（包括集成模型）超過 2 個 BLEU 分值。WMT 2014 英語轉法語翻譯任務中，在 8 塊 GPU 上訓練了 3.5 天之後，我們的模型獲得了新的單模型頂級 BLEU 得分 41.0，只是目前文獻中最佳模型訓練成本的一小部分。我們表明 Transformer 在其他任務上也泛化很好，把它成功應用到了有大量訓練數據和有限訓練數據的英語組別分析上。

圖 1：轉換器-模型架構

圖 2：（左）可延展的 Dot-Product 注意，（右）Multi-Head 注意保護數並行運行的注意層

圖 3：在 5、6 層編碼器自注意中遵循長期依存關係的注意機制的例子。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※OpenAI發布全新研究：根據人類反饋進行強化學習
※微軟全球資深副總裁王永東：人工智慧一面是智能，另一面要接近人
※OpenAI聯合DeepMind發布全新研究：根據人類反饋進行強化學習
※基於神經網路的命名實體識別 NeuroNER
※通過流量識別加密視頻內容：以色列學者提出神經網路攻擊模型

TAG:機器之心 |

您可能感興趣

※五張動圖，看清神經機器翻譯里的Attention！
※南書房行走被譯成「South study walking」，機器翻譯靠譜嗎？
※Facebook Messenger迎來全新AR功能和M翻譯器
※谷歌的Translatotron將翻譯提升到新的水平
※谷歌翻譯「安卓機卡頓」，Android is fast
※「安卓手機非常卡頓」扔進谷歌翻譯，Android Phone is very fast
※Ten Little Ones 中英文音頻和翻譯
※LG 的最新耳機支持一鍵啟用 Google Assistant 和翻譯功能
※Facebook Messenger更新：自動翻譯外語引入AR體驗
※《sequence to sequence：video to text》視頻描述的全文翻譯
※蘋果Siri被爆侮辱性翻譯！華為牛逼被翻譯成Huawei，you bitch！
※必應翻譯被拋棄：Twitter PWA轉用谷歌翻譯
※Facebook 開源 ConvNet AI：重新定義在線翻譯！
※Please翻譯一下your English
※Google Brain新成果：一個能夠理解機器思維方式的AI翻譯器
※谷歌將AutoML應用於Transformer架構，翻譯結果飆升，已開源
※「走狗」是翻譯成「running dogs」
※Facebook Messenger 將提供聊天翻譯功能
※RaoTips翻譯有關Batch Brew
※經濟學人翻譯練習 The Economist