當前位置:
首頁 > 新聞 > 改進版 BERT 打敗 XLNet,Facebook 公布研究細節

改進版 BERT 打敗 XLNet,Facebook 公布研究細節

雷鋒網 AI 科技評論按,去年 10 月,被譽為「最強 NLP 預訓練模型」的 Bert 問世,橫掃 11 項 NLP 任務記錄。隨後問世的 XLNet 打破了這些記錄,在 20 項任務上全面超越 BERT。然而,不久前,Facebook 的最新成果,BERT 改進版本——RoBERTa 打敗 XLNet 登上了 GLUE 排行榜榜首。

相關論文地址:https://arxiv.org/pdf/1907.11692.pdf

GitHub 地址:https://github.com/pytorch/fairseq/tree/master/examples/roberta

論文由 Facebook AI 和華盛頓大學共同完成,其摘要如下:

改進版 BERT 打敗 XLNet,Facebook 公布研究細節


語言模型的預訓練已經帶來了顯著的性能提升,但是仔細比較不同的方法是具有挑戰性的。訓練的計算代價很高,通常在不同的私有數據集上進行,我們將表明尺寸和超參數的選擇對最終結果有重大影響。我們提出了對 BERT 預訓練的複製研究,該研究仔細測量了許多關鍵超參數和訓練數據大小對結果的影響。我們發現 BERT 明顯缺乏訓練,並且可以匹配或超過在此之後發布的每個模型的性能。我們最好的模型在 GLUE, RACE 和 SQuAD 上取得了最先進的成果。這些結果突出了以前被忽視的設計選擇的重要性,並對最近報道的結果進步的來源提出了疑問。我們公布了我們的模型和代碼。

論文的主要貢獻是:

  1. 提出了一套重要的 BERT 設計選擇和訓練策略及其介紹;

  2. 使用了一個新的數據集 CCNEWS,並確認使用更多的數據進行預訓練可以進一步提高下游任務的性能

  3. 文中的訓練改進表明,在設計選擇正確的情況下,遮蔽語言模型與所有其它最近提出的方法相比非常具有競爭力。

改進版 BERT,即 RoBERTa(Robustly Optimized BERT approach)重複了 BERT 的預訓練過程,它和 BERT 的區別有以下幾點:

  • 訓練模型的時間更長

  • 對更多的數據進行更大的批處理

  • 刪除下一句預測目標

  • 訓練更長的序列

  • 以及動態地更改應用於訓練數據的 masking 模式

如前文所述,該模型在 GLUE, RACE 和 SQuAD 上取得了最先進的成果。在參數 L = 24, H = 1024, A = 16, 355M 的情況下,作者在 BERT-large 結構上訓練 RoBERTa,結果如下圖所示:

改進版 BERT 打敗 XLNet,Facebook 公布研究細節

在控制訓練數據,可以觀察到 RoBERTa 比最初報告的 BERT-large 的結果大大提升,這再次證明了設計選擇的重要性。

然後,將此數據與另外三個附加數據集相結合,採用的訓練步驟數量與之前相同(100k),總共預處理的文本超過 160GB。所有下游任務的提升,驗證了預訓練中的數據規模和多樣性。

作者對 RoBERTa 進行了大量的預處理,將預訓練的步驟數量從 100K 增加到 300K,然後再增加到 500K。可以看到下游任務的顯著性能提升,在大多數任務中,300k 和 500k 訓練步驟的模型優於 XLNetLarge。

還可以注意到的是,即便訓練的時間再長也不會產生過擬合,而是可能會受益於額外的訓練。作者發現模型訓練的時間越長,性能就可以大大提高。

目前,他們還使用了一個新的數據集,並發布相關模型和預訓練微調代碼,可以點擊以下網址查看 https://github.com/pytorch/fairseq。

想了解更多細節,可以閱讀論文原文,還可以參考雷鋒網之前的文章「XLNet團隊:公平對比,BERT才會知道差距!」。

雷鋒網雷鋒網

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

在深啟動,我國開源生態鏈良性成長可期
解讀阿里36億入股千方科技背後:智慧交通或將進入巨頭割據時代

TAG:雷鋒網 |