XLNet團隊：公平對比，BERT才會知道差距

新聞 07-23

雷鋒網按：XLNet發布之後，在GLUE基準和多個NLP任務中都超越BERT。但幾天前，Facebook研究人員表示BERT如果有更大的數據，就會重回排行榜第一名。之所以有人對這種超越不服，原因在於BERT在預訓練中只使用了13GB的文本，而XLNet卻使用了126GB。

那麼如果使用相同數據集進行預訓練，結果會怎樣呢？XLNet團隊為了回應質疑，再次以更公平的方式（相同的配置、相同的數據）將XLNet與BERT進行對比。如下——

幾周前，我們發布了新模型XLNet，它在各種基準測試中優於BERT。與BERT相比，我們最大的模型相比BERT在訓練中使用了大約10倍的數據。為了公平比較，我們在比較時使用了基礎模型架構以及相同的訓練數據。

但我們在學術界和工業界的朋友對XLNet-Large與BERT在相同訓練數據下的比較產生較大的興趣。

當然，我們自己也好奇當使用額外數據情況下會有什麼收益。我們所需要做的就是將我們所擁有的所有數據都投入到我們初始版本的訓練中。

我們認為使用大型模型架構和相同數據在XLNet 和BERT之間進行公平的比較研究具有重要的科學價值。

一、相同配置

在本研究中，我們確保BERT和XLNet訓練中幾乎所有可能的超參數都相同。這些超參數都是有BERT作者發布的。換句話說，選擇這些超參的目的是為了優化BERT，而不是XLNet。具體來講，我們仔細控制了以下的超參：

用於BERT並由BERT作者發布。換句話說，它們被選擇並且可能針對BERT而不是XLNet進行了優化。具體來說，我們仔細控制以下超參數：

相同的批量大小：256
相同數量的培訓步數：1M
相同的優化器：Adam，學習率1e-4，預熱10K，線性衰減
相同的培訓語料庫：Wikipedia + BooksCorpus。我們使用相同的工具來處理維基百科，如BERT repo中所描述的。但由於某些未知原因，我們的Wikipedia語料庫只有2B 的詞，而BERT使用的是2.5B 的詞。因此，XLNet接受了略微少的數據訓練。
相同型號的架構參數：24層，1024個隱藏大小，16個heads
相同的微調超參數搜索空間

此外，我們修改了一些與數據相關的實現細節，以便與BERT進行一對一的比較。

在我們之前的實現中，未屏蔽的令牌在預訓練中看不到CLS和SEP。在我們當前的實現中，未屏蔽的令牌確實看到了CLS和SEP，這與BERT一致。

在微調期間，在BERT之後，我們使用「BERT格式」[CLS，A，SEP，B，SEP]而不是[A，SEP，B，SEP，CLS]。

此外，我們考慮BERT的三種變體，並報告每個單獨任務的最佳微調結果。三種變體如下：

請注意，此設置可能會為BERT帶來一些優勢，因為可以通過不同的變體獲得單個任務的最佳性能。

二、對比結果

在GLUE和SQuAD上的開發設置結果和在RACE上的測試集結果如下（沒有使用數據擴充、集合或多任務學習）：

XLNet團隊：公平對比，BERT才會知道差距

打開今日頭條，查看更多圖片

不同模型的比較。XLNet-Large經過了更多數據和更大批量的訓練。對於BERT，我們報告了每個數據集的3個變體的最佳微調結果。

三、分析

表中有一些有趣的結果：

我們相信我們從上述結果中獲得了寶貴的經驗。

XLNet提高了性能。觀察＃1與我們早期在基礎模型上的消融研究一致，表明在相同的訓練條件下XLNet優於BERT。

XLNet-Large可以更好地進行優化。觀察＃2和＃3似乎表明我們之前發布的XLNet-Large（經過更多數據培訓）沒有充分利用數據規模。因此，我們將繼續研究如何正確擴展XLNet的語言預訓練。根據我們目前的（有限的）觀察結果，我們推測以下培訓細節可能會發揮重要作用：

Facebook AI最近進入GLUE排行榜似乎也暗示了培訓細節的重要性。雷鋒網

總之，這項研究更明確地將演算法/模型的影響與其他因素（如訓練細節、大型計算和大數據）分離開來。根據結果，我們認為演算法和模型至少與其他因素一樣重要。它們很可能都是實現自然語言理解最終目標所必需的。我們將很快用上述新結果更新XLNet的論文。

原文鏈接：https://medium.com/@xlnet.team/a-fair-comparison-study-of-xlnet-and-bert-with-large-models-5a4257f59dc0

雷鋒網報道

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章: