當前位置:
首頁 > 知識 > 繼BERT之後,這個新模型再一次在11項NLP基準上打破紀錄

繼BERT之後,這個新模型再一次在11項NLP基準上打破紀錄

機器之心報道

作者:思源

自 BERT 打破 11 項 NLP 的記錄後,可應用於廣泛任務的 NLP 預訓練模型就已經得到大量關注。最近微軟推出了一個綜合性模型,它在這 11 項 NLP 任務中超過了 BERT。目前名為「Microsoft D365 AI & MSR AI」的模型還沒有提供對應的論文與項目地址,因此它到底是不是一種新的預訓練方法也不得而知。

BERT和微軟新模型都採用了通用語言理解評估(GLUE)基準中的 11 項任務,並希望藉助 GLUE 展示模型在廣泛自然語言理解任務中的魯棒性。其中 GLUE 基準並不需要知道具體的模型,因此原則上任何能處理句子和句子對,並能產生相應預測的系統都能參加評估。這 11 項基準任務重點衡量了模型在跨任務上的能力,尤其是參數共享或遷移學習的性能。

從微軟新模型在 GLUE 基準的表現上來看,至少它在 11 項 NLP 任務中比 BERT-Large 更高效。這種高效不僅體現在 81.9 的總體任務評分,同時還體現在參數效率上。微軟的新模型只有 1.1 億的參數量,遠比 BERT-Large 模型的 3.35 億參數量少,和 BERT-Base 的參數量一樣多。下圖展示了 GLUE 基準排名前 5 的模型:

在「Microsoft D365 AI & MSR AI」模型的描述頁中,新模型採用的是一種多任務聯合學習。因此所有任務都共享相同的結構,並通過多任務訓練方法聯合學習。此外,這 11 項任務可以分為 4 類,即句子對分類 MNLI、QQP、QNLI、STS-B、MRPC、RTE 和 SWAG;單句子分類任務 SST-2、CoLA;問答任務 SQuAD v1.1;單句子標註任務(命名實體識別)CoNLL-2003 NER。

其中在句子對分類任務中,有判斷問答對是不是包含正確回答的 QNLI、判斷兩句話有多少相似性的 STS-B 等,它們都用於處理句子之間的關係。而單句子分類任務中有判斷語句中情感趨向的 SST-2 和判斷語法正確性的 CoLA 任務,它們都在處理句子內部的關係。

在 SQuAD v1.1 問答數據集中,模型將通過問題檢索段落中正確回答的位置與長度。最後在命名實體識別數據集 CoNLL 中,每一個時間步都會預測它的標註是什麼,例如人物或地點等。

如下所示為微軟新模型在不同任務中的得分:

目前微軟新模型的性能還非常少,如果經過多任務預訓練,它也能像 BERT 那樣用於更廣泛的 NLP 任務,那麼這樣的高效模型無疑會有很大的優勢。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

性能之殤:從馮·諾依曼瓶頸談起
中國計算機協會YOCSEF TDS「知識圖譜」專題探索班

TAG:機器之心 |