當前位置:
首頁 > 新聞 > 超難NLP新基準SuperGLUE正式發布:橫掃SOTA模型BERT勉強過關

超難NLP新基準SuperGLUE正式發布:橫掃SOTA模型BERT勉強過關

新智元原創

編輯:鵬飛

【新智元導讀】Facebook AI Research、Google DeepMind、華盛頓大學和紐約大學合作,共同推出了SuperGLUE,這是一系列用來衡量現代高性能語言理解AI表現的基準測試任務,SuperGLUE針對的是已經達到挑戰上限的會話式AI深度學習模型,為其提供更難的挑戰,其比GLUE基準任務更負責,旨在構建能處理更加複雜和掌握更細微差別的語言模型,

目前NLP主要著眼在多任務學習和語言模型預訓練,從而孕育出各種模型,如BERT、Transformer、Elmo、MT-DNN、GPT-2等。為了評估這些模型的精準度,GLUE基準應運而生。

SuperGLUE正式上線:NLP模型們,來迎接挑戰吧!

GLUE全稱是通用語言理解評估(General Language Understanding Evaluation),基於已有的9種英文語言理解任務,涵蓋多種數據集大小、文本類型和難度。終極目標是推動研究,開發通用和強大的自然語言理解系統。

但隨著NLP模型狂飆似的發展速度,僅推出一年時間的GLUE基準,已經顯得有些力不從心。於是,Facebook AI研究院、谷歌DeepMind、華盛頓大學以及紐約大學4家公司和高校開始攜手打造進化版新基準:SuperGLUE

近日,進化後的基準也正式宣布上線,可供大家使用了!

地址:

https://gluebenchmark.com

因為BERT在GLUE上是當前最成功的方法,所以SuperGLUE也使用BERT-LARGE-CASED variant.11作為模型性能基準。

什麼是SuperGLUE?

如果你搜索SuperGLUE,出現在首頁的一定的各種膠水。這也是科技公司在給產品起名時特別喜歡玩兒的一個梗:利用命名的首字母縮寫成為一個十分普通、十分常見的英文單詞,這個單詞經常和實際的科技產品毫不相關。

實際上,我們今天要介紹的SuperGLUE,全稱是超(級)通用語言理解評估(Super General-Purpose Language Understanding Evaluation)。

據SuperGLUE團隊介紹,為了獲得更強悍的任務集,他們向各個NLP社區發出了徵集令,並最終獲得一個包含約30種不同NLP任務的列表。隨後按照如下標準篩選:

任務本質:即測試系統理解英語的能力

任務難度:即超出當前最先進模型的能力

可評估性:具備自動評斷機制,同時還需要能夠準確對應人類的判斷或表現

公開數據:擁有可公開的數據

任務格式:提升輸入值的複雜程度,允許出現複雜句子、段落和文章等

任務許可:所用數據必須獲得研究和重新分發的許可

最終獲得一個包含7個任務的集合。然後,以這7個任務為基礎構建公開排行榜。

此外,SuperGLUE還包含基於已有數據的抽取、單個數值的表現指標,以及一套分析工具包jiant。

下載地址:

https://jiant.info/

相比GLUE有哪些變化?效果如何?

進化後的新基準,難度有了大幅提升,應對起當前這些發育迅猛的NLP模型更加得心應手,從而可以鼓勵構建能夠掌握更複雜,或具有更細微差別的語言的模型。

相比上一代GLUE,首先研究人員向原有的11項任務開刀,直接砍掉其中的9項,並對剩下的2項任務進行了升級,這兩項任務分別是識別文本蘊涵(RTE)和Winograd模式挑戰賽(WSC)。

之後,5項新的評估基準也被添加進來,用於測試模型在回答問題、指代消解和常識推理方面的能力。這5項新任務分別是:CB,COPA,GAP,MultiRC和WiC。

初始的SuperGLUE基準版本包含了人類水平估計結果,擴展了GLUE中的句子和句子的分類,還包含了共指消解、句子完成和問答。

SuperGLUE任務集合比較多樣化,為了幫助研究者能夠開發出統一的新方法,SuperGLUE團隊還貼心的為研究人員提供了一套基於PyTorch和AllenNLP、用來操作NLP的預訓練、多任務學習和遷移學習的模塊化建模工具包。

此外,因為考慮到公平性、信息的豐富性,管理SuperGLUE排行榜的規則也有很多地方和GLUE有所區別,以期能充分體現數據和任務創建者的貢獻。

研究人員用主流NLP模型對新基準進行了測試,效果如下圖:

任務示例:

值得一提的是,即使是當前最先進的BERT模型,量化後的綜合分數,比人類低了約16.8%。這樣的表現,恐怕只能勉強算過得去而已。

論文:

https://w4ngatang.github.io/static/papers/superglue.pdf

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

清華成立NLP與社會人文計算研究中心,孫茂松教授擔任主任
你好,和群

TAG:新智元 |