當前位置:
首頁 > 新聞 > XLNet團隊:公平對比,BERT才會知道差距

XLNet團隊:公平對比,BERT才會知道差距

雷鋒網按:XLNet發布之後,在GLUE基準和多個NLP任務中都超越BERT。但幾天前,Facebook研究人員表示BERT如果有更大的數據,就會重回排行榜第一名。之所以有人對這種超越不服,原因在於BERT在預訓練中只使用了13GB的文本,而XLNet卻使用了126GB。

那麼如果使用相同數據集進行預訓練,結果會怎樣呢?XLNet團隊為了回應質疑,再次以更公平的方式(相同的配置、相同的數據)將XLNet與BERT進行對比。如下——

幾周前,我們發布了新模型XLNet,它在各種基準測試中優於BERT。與BERT相比,我們最大的模型相比BERT在訓練中使用了大約10倍的數據。為了公平比較,我們在比較時使用了基礎模型架構以及相同的訓練數據。

但我們在學術界和工業界的朋友對XLNet-Large與BERT在相同訓練數據下的比較產生較大的興趣。

當然,我們自己也好奇當使用額外數據情況下會有什麼收益。我們所需要做的就是將我們所擁有的所有數據都投入到我們初始版本的訓練中。

我們認為使用大型模型架構和相同數據在XLNet 和BERT之間進行公平的比較研究具有重要的科學價值。

一、相同配置

在本研究中,我們確保BERT和XLNet訓練中幾乎所有可能的超參數都相同。這些超參數都是有BERT作者發布的。換句話說,選擇這些超參的目的是為了優化BERT,而不是XLNet。具體來講,我們仔細控制了以下的超參:

用於BERT並由BERT作者發布。換句話說,它們被選擇並且可能針對BERT而不是XLNet進行了優化。具體來說,我們仔細控制以下超參數:

  • 相同的批量大小:256

  • 相同數量的培訓步數:1M

  • 相同的優化器:Adam,學習率1e-4,預熱10K,線性衰減

  • 相同的培訓語料庫:Wikipedia + BooksCorpus。我們使用相同的工具來處理維基百科,如BERT repo中所描述的。但由於某些未知原因,我們的Wikipedia語料庫只有2B 的詞,而BERT使用的是2.5B 的詞。因此,XLNet接受了略微少的數據訓練。

  • 相同型號的架構參數:24層,1024個隱藏大小,16個heads

  • 相同的微調超參數搜索空間

此外,我們修改了一些與數據相關的實現細節,以便與BERT進行一對一的比較。

在我們之前的實現中,未屏蔽的令牌在預訓練中看不到CLS和SEP。在我們當前的實現中,未屏蔽的令牌確實看到了CLS和SEP,這與BERT一致。

在微調期間,在BERT之後,我們使用「BERT格式」[CLS,A,SEP,B,SEP]而不是[A,SEP,B,SEP,CLS]。

此外,我們考慮BERT的三種變體,並報告每個單獨任務的最佳微調結果。三種變體如下:

  • Model-I:作者發布的原始BERT

  • Model-II:BERT具有全字掩蔽,也由作者發布

  • Model-III:由於我們發現下一句話預測(NSP)可能會影響性能,我們使用已發布的BERT代碼預先訓練一個新模型,而不會造成NSP損失

請注意,此設置可能會為BERT帶來一些優勢,因為可以通過不同的變體獲得單個任務的最佳性能。

二、對比結果

在GLUE和SQuAD上的開發設置結果和在RACE上的測試集結果如下(沒有使用數據擴充、集合或多任務學習):

XLNet團隊:公平對比,BERT才會知道差距

打開今日頭條,查看更多圖片

不同模型的比較。XLNet-Large經過了更多數據和更大批量的訓練。對於BERT,我們報告了每個數據集的3個變體的最佳微調結果。

三、分析

表中有一些有趣的結果:

  1. 使用幾乎相同的訓練配方,訓練相同的數據,XLNet在所有數據集上都以相當大的優勢超越BERT。

  2. 11個基準中有8個,在10倍以上數據(比較XLNet-Large-wikibooks和XLNet-Large)的訓練收益小於從BERT切換到XLNet的收益。

  3. 在一些基準測試中,例如CoLA和MRPC,在更多數據上訓練模型的性能甚至低於在較少數據上訓練模型的性能。

我們相信我們從上述結果中獲得了寶貴的經驗。

XLNet提高了性能。觀察#1與我們早期在基礎模型上的消融研究一致,表明在相同的訓練條件下XLNet優於BERT。

XLNet-Large可以更好地進行優化。觀察#2和#3似乎表明我們之前發布的XLNet-Large(經過更多數據培訓)沒有充分利用數據規模。因此,我們將繼續研究如何正確擴展XLNet的語言預訓練。根據我們目前的(有限的)觀察結果,我們推測以下培訓細節可能會發揮重要作用:

  • 數據相關:數據規模、數據源、數據清理、數據編碼、數據格式化

  • 優化相關:學習率(和時間表)、批量大小、培訓步驟數、優化器

  • 重要的是,這些超參數可能彼此具有高階交互。

Facebook AI最近進入GLUE排行榜似乎也暗示了培訓細節的重要性。雷鋒網

總之,這項研究更明確地將演算法/模型的影響與其他因素(如訓練細節、大型計算和大數據)分離開來。根據結果,我們認為演算法和模型至少與其他因素一樣重要。它們很可能都是實現自然語言理解最終目標所必需的。我們將很快用上述新結果更新XLNet的論文。

原文鏈接:https://medium.com/@xlnet.team/a-fair-comparison-study-of-xlnet-and-bert-with-large-models-5a4257f59dc0

雷鋒網報道

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

從數據小偷到騙錢大王,黑客是如何用勒索攻擊走上「人生癲瘋」的?
成立一年,挑戰Waymo,中智行如何借5GAI打造「中國式自動駕駛」?

TAG:雷鋒網 |