當前位置:
首頁 > 知識 > 是時候「拋棄」谷歌 BERT 模型了!新型預訓練語言模型問世

是時候「拋棄」谷歌 BERT 模型了!新型預訓練語言模型問世

是時候「拋棄」谷歌 BERT 模型了!新型預訓練語言模型問世

是時候「拋棄」谷歌 BERT 模型了!新型預訓練語言模型問世

作者 | XLNet Team

譯者 | 孫薇

責編 | Jane

出品 | AI科技大本營(ID: rgznai100)

近日,XLNet 團隊發布了新型預訓練語言模型 XLNet,這個新模型在各項基準測試中都優於谷歌之前發布的BERT模型,其中模型 XLNet-Large 的數據量更是 BERT 模型的 10 倍左右。那 XLnet 和 BERT 到底要選誰?

這次 XLnet 團隊進行了一次對比實驗,為了確保對比的公正性,在對比實驗中作者採用相同的環境和配置,相同的訓練數據,並確保在 BERT 和 XLNet 兩個模型的訓練方法中,幾乎每個超參數(hyperparameter)都是相同的,這些超參數都是由 BERT作者發布,並在BERT中使用的。即是說,這些超參數是為BERT模型設計選擇的,很可能是針對BERT最優化的,而非XLNet。具體超參數設置如下(兩個模型的超參數完全相同):

  • Batch-size:256;

  • 訓練步數:1M;

  • 優化器:Adam,學習率 1e-4,warmup 1萬,線性衰減;

  • 訓練語料庫:Wikipedia + BooksCorpus,在處理Wikipedia時使用了與BERT repo相同的工具,但出於某種原因,我們的Wiki語料庫僅有20億單詞,BERT使用了25億單詞,因此XLNet的訓練數據略少於BERT。

  • 模型結構參數:24層,1024個隱層,16 heads;

  • 微調(finetuning)超參數搜索空間。

此外,作者還修改了一些數據相關的實現細節,以便與BERT模型進行一對一的比較。

  • 在之前的實驗中,預訓練環節,未被mask的token無法看到分類token CLS和分隔token SEP,而現階段的實現中可以看到了,與BERT模型保持一致。

  • 在微調環節,與BERT一樣,用「BERT格式」取代了普通的 XLNet格式,即使用[CLS, A, SEP, B, SEP] 取代了 [A, SEP, B, SEP, CLS]。

另外,我們考慮了BERT模型的三種變體,並報告了各個單獨任務的最佳微調結果。三種變體如下:

  • 模型1(Model-I):BERT 作者發布的原始BERT模型;

  • 模型2(Model-II):同樣來自作者的中文全詞覆蓋模型;

  • 模型3(Model-III):由於考慮到下句預測(NSP)可能會影響表現,我們使用BERT已發布的代碼針對沒有NSP loss的新模型進行了預訓練。

注意:由於通過不同變體可以獲得各個任務的最佳表現,以上設置也許會讓BERT模型更佔優勢。

GLUE 和 SQuAD上的開發設置結果,及 RACE 上的測試設置結果如下(並未使用數據增強、集成或多任務學習):

是時候「拋棄」谷歌 BERT 模型了!新型預訓練語言模型問世

不同模型對比。XLNet-Large (as in paper)所使用的訓練數據更多一些,batch size也稍大。BERT模型,針對每個數據集我們只報告3個變體中微調最優的結果。

表格中有些觀測結果非常有趣:

  1. 使用相同的數據,以及幾乎完全相同的訓練方法來訓練時,針對所有數據集,XLNet都以相當的優勢勝過了BERT模型;

  2. 投入10倍多數據(對比XLNet-Large-wikibooks與XLNet-Large)的性能提升,要小於在11個基準測試中將其中8個從BERT模型換成XLNet模型的性能提升;

  3. 在某些基準測試(比如CoLA和MRPC)中,使用較少數據訓練的模型,其表現要優於使用較多數據訓練的模型。

我們相信,從以上結果中我們也許可以得到一些結果了。

XLNet的性能提高了:觀測結果1與我們早期基於基礎模型的對比實驗結果一致,證明在指定相同的訓練條件時,XLNet模型要優於BERT模型。

XLNet-Large可以優化到更佳:觀測結果2與觀測結果3似乎表明,我們之前發布的XLNet-Large(使用更多數據訓練)並沒有充分利用數據規模。因此,我們會繼續研究相關方法,正確擴展使用XLNet模型進行語言預訓練的規模。根據目前有限的觀測結果,我們推測以下訓練細節可能發揮著重要作用:

  • 數據相關:數據規模、數據來源、數據清洗、數據編碼、數據格式化;

  • 優化相關:學習率(以及計劃)、batch size、訓練步驟數、優化器;

  • 重要的是:這些超參數可能彼此有高階交互效果。

Facebook AI近期 GLUE 排行榜,可能也說明了訓練細節的重要性。

總之,本實驗將演算法/模型的影響,與類似訓練細節、大型計算及大數據這樣的其他因素明確分離開來。根據以上結果,XLNet 團隊認為:演算法與模型至少是與其他因素同等重要的,它們很可能都是實現自然語言理解最終目標所必需的條件。

原文鏈接: https://medium.com/@xlnet.team/a-fair-comparison-study-of-xlnet-and-bert-with-large-models-5a4257f59dc0

【END】

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 CSDN 的精彩文章:

蘋果 5G 掉隊
阿里技術副總裁賈揚清、微軟 CTO 韋青重磅出席 AI 開發者大會

TAG:CSDN |