繼BERT之後，這個新模型再一次在11項NLP基準上打破紀錄

知識 12-24

機器之心報道

作者：思源

自 BERT 打破 11 項 NLP 的記錄後，可應用於廣泛任務的 NLP 預訓練模型就已經得到大量關注。最近微軟推出了一個綜合性模型，它在這 11 項 NLP 任務中超過了 BERT。目前名為「Microsoft D365 AI & MSR AI」的模型還沒有提供對應的論文與項目地址，因此它到底是不是一種新的預訓練方法也不得而知。

BERT和微軟新模型都採用了通用語言理解評估（GLUE）基準中的 11 項任務，並希望藉助 GLUE 展示模型在廣泛自然語言理解任務中的魯棒性。其中 GLUE 基準並不需要知道具體的模型，因此原則上任何能處理句子和句子對，並能產生相應預測的系統都能參加評估。這 11 項基準任務重點衡量了模型在跨任務上的能力，尤其是參數共享或遷移學習的性能。

從微軟新模型在 GLUE 基準的表現上來看，至少它在 11 項 NLP 任務中比 BERT-Large 更高效。這種高效不僅體現在 81.9 的總體任務評分，同時還體現在參數效率上。微軟的新模型只有 1.1 億的參數量，遠比 BERT-Large 模型的 3.35 億參數量少，和 BERT-Base 的參數量一樣多。下圖展示了 GLUE 基準排名前 5 的模型：

在「Microsoft D365 AI & MSR AI」模型的描述頁中，新模型採用的是一種多任務聯合學習。因此所有任務都共享相同的結構，並通過多任務訓練方法聯合學習。此外，這 11 項任務可以分為 4 類，即句子對分類 MNLI、QQP、QNLI、STS-B、MRPC、RTE 和 SWAG；單句子分類任務 SST-2、CoLA；問答任務 SQuAD v1.1；單句子標註任務（命名實體識別）CoNLL-2003 NER。

其中在句子對分類任務中，有判斷問答對是不是包含正確回答的 QNLI、判斷兩句話有多少相似性的 STS-B 等，它們都用於處理句子之間的關係。而單句子分類任務中有判斷語句中情感趨向的 SST-2 和判斷語法正確性的 CoLA 任務，它們都在處理句子內部的關係。

在 SQuAD v1.1 問答數據集中，模型將通過問題檢索段落中正確回答的位置與長度。最後在命名實體識別數據集 CoNLL 中，每一個時間步都會預測它的標註是什麼，例如人物或地點等。

如下所示為微軟新模型在不同任務中的得分：

目前微軟新模型的性能還非常少，如果經過多任務預訓練，它也能像 BERT 那樣用於更廣泛的 NLP 任務，那麼這樣的高效模型無疑會有很大的優勢。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※性能之殤：從馮·諾依曼瓶頸談起
※中國計算機協會YOCSEF TDS「知識圖譜」專題探索班

TAG:機器之心 |