NLP模型太強，基準測試要跟不上了！FaceBook、DeepMind聯推「新考卷」

新聞 08-15

在自然語言處理上（NLP），基於深度學習的方法近年來在語言處理方面取得了快速發展。但是，在無法獲得大量被標記的訓練數據時，當前的系統在處理任務時仍然會受到限制。

近日，Facebook 在其人工智慧博客上更新了一篇文章，回顧了Facebook的人工智慧在 NLP 領域取得的突破，尤其是在利用半監督和自監督學習技術、利用未標記的數據來提高性能上，其中一些成果甚至超越了純粹的監督系統。

而對於未來的自然語言處理的趨勢，FaceBook 認為，自然語言處理模型在一些任務上已經有了超越人類的表現，但現實應用中卻仍有局限，是時候推出一個新的衡量基準來評估自然語言處理出現的一些新進展。

在這方面，FaceBook正在和紐約大學、DeepMind和華盛頓大學合作構建SuperGLUE，這將是一個難度更高的測試基準。

有意思的是，FaceBook 特別在博文開頭中提到，自然語言理解（NLU）和語言翻譯是一系列重要應用的關鍵，包括大規模識別和刪除有害內容，以及連接世界各地不同語言的人們。以下為文章全文（經過基於願意的刪改）：

在第四屆機器翻譯大會（WMT19）的競賽中，Facebook AI使用了一種新型的半監督訓練，在幾種語言翻譯中獲得了第一名。Facebook 還引入了一種新的自我監督的預訓練方法——RoBERTa，它在數個語言理解任務上超越了所有現有的NLU（自然語言理解）系統。而在某些情況下，這些系統甚至優於人類基線，包括英德翻譯和五個 NLU 基準。

在整個自然語言處理領域，NLU 系統的發展速度如此之快，以至於它在許多現有基準上都達到了極限。為了繼續推進這項技術，Facebook與紐約大學（NYU）、DeepMind Technologies 和華盛頓大學（UW）合作，開發了全新的基準、排行榜和 PyTorch 工具包，希望進一步推動相關研究發展。

FaceBook 認為，這些新工具將幫助創造更強大的內容理解系統，而且可以翻譯數百種語言，理解諸如歧義、共同引用和常識推理等複雜的內容，減少當今大多數系統對所需的大量標記培訓數據的依賴。

翻譯精確度方面的突破

對於神經機器翻譯（NMT）模型，監督訓練通常需要大量有參考譯文的句子。然而，大量高質量的雙語數據並不普遍可用，這就要求研究人員使用沒有參考翻譯的單語數據。反向翻譯（Back translation，一種半監督學習技術）部分地克服了這個問題。Facebook 最近提交給 WMT 的作品是建立在研究人員之前的大規模反向翻譯工作的基礎上的，這也幫助 Facebook 在去年的比賽中獲得了第一名。

今年，Facebook 引入了一種新的方法，通過生成許多候選翻譯，並選擇最能平衡三種不同模型分數（正向、反向和流暢性）的翻譯，進一步改進其反向翻譯系統。正向模型評分考察候選翻譯在多大程度上捕捉了原句的意思。相反，反向評分著眼於如何從候選翻譯中重建原句。最後的分數衡量的是翻譯的流利程度，並通過觀察大量單語數據以自我監督的方式進行訓練。然後通過平衡這三個分數，顯著地改進翻譯。

因此，經過數年的努力，Facebook 將系統英-德翻譯任務的性能提高了 4.5 BLEU（衡量生成的翻譯與專業參考之間重疊程度的指標），這是一個很大的改進。根據人工評價，Facebook 的模型在英-德、德-英、英-俄，和俄-英的四個翻譯任務中排名第一。根據 WMT 評委的評估，Facebook 的英-德翻譯甚至比人類翻譯要好。

（來源：Facebook）

其工作原理是：首先，一個正向模型將一個句子（比如從德語翻譯成英語）翻譯成英語，生成一組英語翻譯。然後，一個反向模型將這些英語語句翻譯成德語，讓系統評估每一個英語翻譯與原德語句子的一致性。最後，語言模型將判斷英語翻譯的流利程度。

Facebook 還將訓練規模擴大到了更大的數據集，包括大約 100 億個英語和德語單詞。與去年相比，Facebook 在半監督訓練中使用了兩倍多的單語數據，進一步提高了翻譯的準確性。

自監督預訓練方法的改進

Facebook 最近對自然語言處理（NLP）的最大突破——BERT 也進行了優化和改進。BERT 是谷歌在 2018 年發布的，它是革命性的技術，因為它展示了自監督訓練技術的潛力，它具有匹配或超過傳統的標籤密集型監督方法的性能。例如，利用 BERT 和相關方法推動對話型 AI 的前沿研究，改進內容理解系統，提高低資源和無監督的翻譯質量。

由於有了谷歌開源的 BERT，Facebook 才能夠進行一個複製研究，並確定了進一步提高其有效性的更改設計。Facebook 引入了穩健優化的 BERT 預訓練方法，即RoBERTa，實現了新的最先進的進展。

RoBERTa 修改了 BERT 中的關鍵超參數，包括刪除 BERT 下一個句子的預訓練目標，以及使用更大的批量和學習率進行訓練。與 BERT 相比，RoBERTa 訓練的時間要長得多。這種方法在廣泛使用的 NLP 基準測試、一般語言理解評估（GLUE）和考試閱讀理解（RACE）中產生了最先進的成果。

圖 | RoBERTa 在不同任務中的結果以及取得的改進。（來源：Facebook）

RoBERTa 以 88.5 分的平均分獲得了 GLUE 排行榜的第一名，與之前的第一名平均分 88.4 分的 XLNet-Large 性能持平。RoBERTa 還在幾個語言理解基準測試上取得了進步，包括 MNLI、QNLI、RTE、STS-B 和 RACE 任務。

這一成就是 Facebook 持續致力於提高自監督系統的性能和潛力的一部分，這些系統較少地依賴於數據標記。

NLP 研究的下一個前沿

作為衡量研究進展的行業標準，GLUE 的目標是覆蓋廣泛的 NLP 任務，唯一的方法就是構建足夠通用的工具來幫助解決大多數新的語言理解問題。

在發布後的一年內，一些 NLP 模型（包括 RoBERTa）已經在 GLUE 基準上超過了人類的基礎能力。目前的模型已經提出了一種非常有效的方法，它將對大量文本數據集的語言模型預訓練與簡單的多任務和遷移學習技術結合了起來。

這種快速的發展是大型人工智慧社區互相協作的結果。上面提到的 NLP 競賽、基準測試和代碼，使得模型複製、改進和在最新成果中取得了更快的進展。隨著 GPT 和 BERT 的引入，GLUE 上的模型性能大幅提升，現在最近的模型已經超越了人類的能力，如下圖所示:

圖 | 最近的自然語言處理模型能力已經超越人類（來源：Facebook）

雖然目前的模型可以在特定的 GLUE 任務上超越人類，但是它們還不能很好地解決人類的一些任務。為了給 NLP 的研究設定一個新的更高的標準，Facebook 人工智慧團隊與紐約大學、DeepMind 和華盛頓大學合作構建了 SuperGLUE，這是一個更加困難的基準。他們正在推出 SuperGLUE，讓研究人員能夠繼續推進這項技術的發展。

新的基準和最初的基準都是由紐約大學牽頭，通過相同的合作夥伴合作創建的。SuperGLUE追隨 GLUE 的腳步，提供一個單數字度量，總結了各種NLP 任務的進展。除了新的測試基準，Facebook 還發布了一個排行榜和一個PyTorch 工具包，用於引導研究。

SuperGLUE 提供了一些新方法來測試一系列較難的 NLP 任務的創造性方法，這些任務主要關注機器學習的一些核心領域的創新，包括高效採樣、轉移、多任務和自監督學習。為了挑戰研究人員，Facebook 選擇了一些任務，它們具有不同的格式，有更多微妙的問題，但還沒有使用最先進的方法來解決，並且很容易被人解決。為了測試這些任務，Facebook 為許多候選任務運行基於BERT的基線，並為人類基線收集數據。

新的基準測試包括八個不同的具有挑戰性的任務，包括選擇合理的替代方案（COPA），這是一個因果推理任務，在這個任務中，系統被賦予前提句子，並且必須從兩個可能的選擇中確定這個前提的因果關係。值得注意的是，人類對 COPA 的準確率達到了 100%，而 BERT 的準確率只有 74%，這表明 BERT 有很大的進步空間。

其他獨特的前沿組件還包括用於測量這些模型中偏差的診斷工具。具體來說，例如 Winogender，它的設計目的是測試在自動指代消解系統（automated co-reference resolution systems）中是否存在性別偏見。此外，SuperGLUE 還包含一個名為「BoolQ」的問答（QA）任務，它的每個示例都包含一個簡短的段落和一個關於該段落的「是」或「否」問題。這是自然問題基準測試的一個很好的工具。

與 GLUE 類似，新的基準測試還包括一個圍繞語言理解任務構建的公共排行榜，它利用現有數據，並附帶一個單數字性能指標和一個分析工具包。

最近 Facebook 用新的基準測試了 RoBERTa，它的表現超過了所有現有的 NLU 系統，甚至超過了人類在多語言閱讀理解（MultiRC）任務上的基線。儘管如此，在許多 SuperGLUE 任務上，RoBERTa 和人類基線之間仍然有很大的差距，這說明了當今最先進的 NLU 系統的一些局限性。

為了進一步挑戰人工智慧系統可以幫助人類做什麼，Facebook 還引入了第一個長格式的問題回答數據集和基準測試，這需要機器提供長而複雜的答案。這是現有演算法以前從未遇到過的挑戰。

目前的問題回答系統主要集中在一些瑣碎的問題上，比如水母是否有大腦的問題。而這項新挑戰更進一步，它要求機器對一些開放性的問題進行深入的回答，比如「沒有大腦，水母是如何工作的?」，現有演算法與人類的表現相去甚遠，而這一新挑戰將推動人工智慧綜合來自不同來源的信息，為開放式問題提供複雜的答案……上述的所有工作都是更大進步的一部分，這一進步正在迅速推進語言處理的技術水平。

通過發布衡量技術進步的新標準，引入半監督和自監督學習的新方法，以及在越來越大的數據範圍內進行訓練，Facebook 希望能夠激發下一代的創新。

-End-

編輯：李亞山，黃珊

參考：

https://ai.facebook.com/blog/new-advances-in-natural-language-processing-to-better-connect-people/