改進版 BERT 打敗 XLNet，Facebook 公布研究細節

新聞 07-31

雷鋒網 AI 科技評論按，去年 10 月，被譽為「最強 NLP 預訓練模型」的 Bert 問世，橫掃 11 項 NLP 任務記錄。隨後問世的 XLNet 打破了這些記錄，在 20 項任務上全面超越 BERT。然而，不久前，Facebook 的最新成果，BERT 改進版本——RoBERTa 打敗 XLNet 登上了 GLUE 排行榜榜首。

相關論文地址：https://arxiv.org/pdf/1907.11692.pdf

GitHub 地址：https://github.com/pytorch/fairseq/tree/master/examples/roberta

論文由 Facebook AI 和華盛頓大學共同完成，其摘要如下：

改進版 BERT 打敗 XLNet，Facebook 公布研究細節

語言模型的預訓練已經帶來了顯著的性能提升，但是仔細比較不同的方法是具有挑戰性的。訓練的計算代價很高，通常在不同的私有數據集上進行，我們將表明尺寸和超參數的選擇對最終結果有重大影響。我們提出了對 BERT 預訓練的複製研究，該研究仔細測量了許多關鍵超參數和訓練數據大小對結果的影響。我們發現 BERT 明顯缺乏訓練，並且可以匹配或超過在此之後發布的每個模型的性能。我們最好的模型在 GLUE, RACE 和 SQuAD 上取得了最先進的成果。這些結果突出了以前被忽視的設計選擇的重要性，並對最近報道的結果進步的來源提出了疑問。我們公布了我們的模型和代碼。

論文的主要貢獻是：

提出了一套重要的 BERT 設計選擇和訓練策略及其介紹；
使用了一個新的數據集 CCNEWS，並確認使用更多的數據進行預訓練可以進一步提高下游任務的性能
文中的訓練改進表明，在設計選擇正確的情況下，遮蔽語言模型與所有其它最近提出的方法相比非常具有競爭力。

改進版 BERT，即 RoBERTa（Robustly Optimized BERT approach）重複了 BERT 的預訓練過程，它和 BERT 的區別有以下幾點：

訓練模型的時間更長
對更多的數據進行更大的批處理
刪除下一句預測目標
訓練更長的序列
以及動態地更改應用於訓練數據的 masking 模式

如前文所述，該模型在 GLUE, RACE 和 SQuAD 上取得了最先進的成果。在參數 L = 24, H = 1024, A = 16, 355M 的情況下，作者在 BERT-large 結構上訓練 RoBERTa，結果如下圖所示：

改進版 BERT 打敗 XLNet，Facebook 公布研究細節

在控制訓練數據，可以觀察到 RoBERTa 比最初報告的 BERT-large 的結果大大提升，這再次證明了設計選擇的重要性。

然後，將此數據與另外三個附加數據集相結合，採用的訓練步驟數量與之前相同（100k），總共預處理的文本超過 160GB。所有下游任務的提升，驗證了預訓練中的數據規模和多樣性。

作者對 RoBERTa 進行了大量的預處理，將預訓練的步驟數量從 100K 增加到 300K，然後再增加到 500K。可以看到下游任務的顯著性能提升，在大多數任務中，300k 和 500k 訓練步驟的模型優於 XLNetLarge。

還可以注意到的是，即便訓練的時間再長也不會產生過擬合，而是可能會受益於額外的訓練。作者發現模型訓練的時間越長，性能就可以大大提高。

目前，他們還使用了一個新的數據集，並發布相關模型和預訓練微調代碼，可以點擊以下網址查看 https://github.com/pytorch/fairseq。

想了解更多細節，可以閱讀論文原文，還可以參考雷鋒網之前的文章「XLNet團隊：公平對比，BERT才會知道差距！」。

雷鋒網雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※在深啟動，我國開源生態鏈良性成長可期
※解讀阿里36億入股千方科技背後：智慧交通或將進入巨頭割據時代

TAG:雷鋒網 |