ICLR 2019 遺珠？加大號「變形金剛」，Transformer-XL

新聞 01-16

打開今日頭條，查看更多圖片

雷鋒網 AI 科技評論按：近幾天，一篇 ICLR 2019 的拒稿引起了部分研究人員的注意。它不僅是一個能夠處理可變長度序列的模型，在多個任務中刷新了當前的最好性能，而且它還是 Transformer 模型的第三代升級。它的名字叫作「Transformer-XL」（加大號的 Transformer）。

前兩代 Transformer

2017 年 6 月，谷歌大腦在論文《Attention Is All You Need》中提出了一個完全基於注意力機制的編解碼器模型 Transformer ，它完全拋棄了之前其它模型引入注意力機制後仍然保留的循環與卷積結構，然後在任務表現、並行能力和易於訓練性方面都有大幅的提高。Transformer 從此也成為了機器翻譯和其它許多文本理解任務中的重要基準模型。

2018 年 7 月，谷歌大腦在新論文《Universal Transformer》中對最初的 Transformer 進行了拓展，讓它具有通用計算能力（也就是「圖靈完備」）。他們使用了一種新型的、注重效率的時間並行循環結構，這樣的設計讓它不僅比 RNN 中使用的串列循環速度更快，也讓 Universal Transformer 比標準的前饋 Transformer 更加強大，在更多任務中取得了有力的結果。（雷鋒網 AI 科技評論詳細解析文章見這裡）

新的 Transformer

谷歌大腦的第三代 Transformer 也在 2018 年下半年完成。他們首先投稿了 ICLR 2019，近期論文評審結果陸續揭曉後他們把論文上傳到了 arXiv。

這篇論文《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》（Transformer-XL: 超越固定長度內容之外的注意力語言模型， https://arxiv.org/abs/1901.02860，https://openreview.net/forum?id=HJePno0cYm）把注意力放在了拓展模型大小，以及給模型增加可變長度序列的處理能力上。論文由谷歌大腦、谷歌 AI 的研究人員和 CMU 教授、蘋果機器學習總監 Ruslan Salakhutdinov 和他的學生們共同完成。

論文摘要如下：

Transformer 網路其實有潛力學習更長期的依賴關係，但是在目前的語言建模任務的環境設置之下，網路的輸入被限制為固定長度的內容。為了發掘這種潛力，作者們提出了一種新的神經網路架構，Transformer-XL，它可以讓 Transformer 網路在長度不固定的內容中學習依賴，同時還不會干擾時空一致性。具體來說，Transformer-XL 由一個小節級別的循環機制和一個新設計的位置編碼器模式組成。這種方法不僅讓模型可以捕捉到長期的依賴，同時也可以解決內容分塊的問題。這樣的方法的效果是，Transformer-XL 學到的依賴要比 RNN 學到的長 80%，比最初的 Transformer 網路長 450%，在長、短序列上都取得了更好了性能，而且在推理時最高也要比最初的 Transformer 網路快超過 1800 倍。除此之外，作者們也刷新了多項任務中的最好成績，text8 數據集從 1.13 提升至 1.08，WikiText-103 上從 20.5 提升至18.3，One Billion Word 數據集上從 23.7 提升至 21.8，Penn Treebank 數據集上從 55.3 提升至 54.5（而且不需要精細調節）。模型的代碼、預訓練模型、超參數都會同時提供 Tensorflow 和 PyTorch 版本。

ICLR 2019 遺珠？加大號「變形金剛」，Transformer-XL

值得說明的是，和 RNN 網路相比，Transformer 架構的網路家族可以輕鬆地加大網路規模，不僅更早的論文中 64 層的 Transfomer 擁有 2.35 億個參數，這次 24 層的 Transformer-XL 更是達到了 2.77 億的參數規模（當然也取得了更好的表現）。

即便這篇論文投稿到 ICLR 2019 並被拒了（拒稿原因包括「創新點不多」、「無法證明性能提升來自於工程手段還是新的思路」、「應當包括來自機器翻譯任務的 ASR 表現」、「沒有進行更豐富多樣的實驗」等），包括 David Ha 在內的許多學者還是認為這是一篇優秀的論文。David Ha 的評價是：它非常有用，在論文的補充材料中提供的代碼可以在語言建模之外的許多任務中發揮作用。

感興趣的讀者可以詳細閱讀論文，並自己嘗試作者們提供的預訓練模型。

論文地址：https://arxiv.org/abs/1901.02860

代碼開源：https://github.com/kimiyoung/transformer-xl，包含 PyTorch 和 TensorFlow 的模型實現，而且帶有預訓練的模型

雷鋒網 AI 科技評論報道

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※卡內基梅隆大學王建：一種新型光幕感測器在機器人避障和無人駕駛中的應用｜AI 研習社 80 期大講堂總結

TAG:雷鋒網 |