台灣小哥一篇論文把BERT拉下神壇！NLP神話缺了數據集還不如隨機

新聞 07-22

【新智元導讀】曾經狂掃11項記錄的谷歌NLP模型BERT，近日遭到了網友的質疑：該模型在一些基準測試中的成功僅僅是因為利用了數據集中的虛假統計線索，如若不然，還沒有隨機的結果好。這項研究已經在Reddit得到了廣泛的討論。

NLP神話被質疑。

自去年穀歌發布BERT以來，這個曾狂破11項紀錄、全面超越人類的NLP模型就備受關注，熱度不減。

然而，近日一位Reddit網友卻對此拋出質疑：BERT在一些基準測試中的成功僅僅是因為利用了數據集中虛假的統計線索。若是沒有它們，可能還沒有隨機的結果好。

台灣小哥一篇論文把BERT拉下神壇！NLP神話缺了數據集還不如隨機

Reddit地址：

https://www.reddit.com/r/MachineLearning/comments/cfxpxy/berts_success_in_some_benchmarks_tests_may_be/

這項論文是由台灣成功大學的研究人員完成。

台灣小哥一篇論文把BERT拉下神壇！NLP神話缺了數據集還不如隨機

論文地址：

https://arxiv.org/pdf/1907.07355.pdf

研究人員表示：

我們驚訝地發現BERT在參數推理理解任務中的峰值性能達到77％，僅比平均未經訓練的人類基線低3個點。但是，我們表明這個結果完全是通過利用數據集中的虛假統計線索來解釋的。我們分析了這些線索的性質，並證明了一系列模型都在利用它們。該分析報告了一個對抗性數據集的構造，所有模型都在該數據集上實現隨機精度。

Reddit網友lysecret對此研究表示：

台灣小哥一篇論文把BERT拉下神壇！NLP神話缺了數據集還不如隨機

他認為這是一種非常簡單而有效的方法來表明這類模型是不能正確地做到「理解」的，智能利用(不好的)統計線索。然而，對於大多數人(除了埃隆·馬斯克)來說可能都會認為，像BERT這類模型的就是這麼做的。

BERT在論證理解方面真的學到什麼了嗎？

論證挖掘是確定自然語言文本中的論證結構的任務。例如，哪些文本段代表claim，並且包括支持或攻擊這些claim的reason。

對於機器學習者來說，這是一項具有挑戰性的任務，因為即使是人類也很難確定兩個文本段何時處於爭論關係中，正如對論證注釋的研究所證明的那樣。解決這個問題的一個方法是專註於warrant(權證)——一種允許推理的世界知識形式。

考慮一個簡單的論點：「（1）正在下雨；因此（2）你應該拿一把傘。」逮捕令「（3）弄濕是不好的」可以許可這個推論。知道（3）有助於得出（1）和（2）之間的推論聯繫。

然而，很難在任何地方找到它，因為warrant通常是隱含的。因此，在這種方法中，機器學習者不僅必須使用warrant進行推理，還要發現它們。

論證推理理解任務（ARCT）推遲發現warrant的問題，並側重於推理。提供了一個包含claim C和reason R的論點。該任務是在分心器上選擇正確的warrant W，稱為備選warrant A。

該備選方案的書寫方式是R∧A→?C。之前例子的另一種保證可能是「（4）濕是好的」，在這種情況下我們有（1）∧（4）→「（?2）你不應該拿傘。」數據集中的一個例子如圖1所示。

台灣小哥一篇論文把BERT拉下神壇！NLP神話缺了數據集還不如隨機

圖1：ARCT測試集中的一個數據點示例以及如何讀取它。從R和A到?C的推論是通過設計得出的。

ARCT SemEval共享任務，驗證了該問題的挑戰性。即使提供warrant，學習者仍需要依賴進一步的世界知識。

例如，為了正確地對圖1中的數據點進行分類，至少需要知道消費者選擇和網路重定向如何與壟斷概念相關，並且Google是搜索引擎。除了一個參與系統之外，所有參與共享任務的系統的準確度不能超過60%（二進位分類）。

因此，令人驚訝的是，BERT以其最佳運行（表1）實現了77％的測試集精度，僅比平均（未訓練的）人類基線低3個點。如果沒有為這項任務提供所需的世界知識，那麼期望它表現如此之好似乎是不合理的。這就激發了一個問題：BERT在論證理解方面學到了什麼？

台灣小哥一篇論文把BERT拉下神壇！NLP神話缺了數據集還不如隨機

表1：基線和BERT結果。我們的結果來自20個不同的隨機種子（±給出標準偏差）。BERT Large的平均值受到5/20隨機種子的影響而不能訓練，這是Devlin等人提出的一個問題。因此，我們認為中位數是衡量BERT平均表現的更好指標。BERT（大）的非退化運行的平均值為0.716±0.04。

為了研究BERT的決策，工作人員研究了數據點，發現在多次運行中很容易分類。對SemEval提交進行了類似的分析，並且與他們的結果一致，發現BERT利用了warrant中提示詞的存在，特別是「not」。通過探索旨在隔離這些影響的實驗，研究人員在這項工作中證明了BERT在利用虛假統計線索方面的驚人之處。

但是，結果表明ARCT是可以消除主要問題的。由於R∧A→?C，我們可以添加每個數據點的副本，其中claim被否定並且標籤被反轉。

這意味著warrant中統計線索的分布將反映在兩個標籤上，從而消除了信號。在這種對抗性數據集上，所有模型都是隨機執行的，BERT實現了53％的最大測試集精度。

因此，對抗性數據集提供了對參數理解的更可靠的評估，並且應該被用作該數據集的未來工作的標準。

實驗表明：BERT並不能做出正確「理解」，只能利用統計線索

如果一個模型正在利用標籤上的分布線索，那麼如果只訓練warrant(W)，它應該表現得相對較好。

同樣的道理也適用於僅刪除claim、保留reason和warrant(R，W)或刪除reason(C，W)。

後一種設置允許模型額外考慮reason和claim中的線索，以及與warrant組合相關的線索。

台灣小哥一篇論文把BERT拉下神壇！NLP神話缺了數據集還不如隨機

表3 用BERT Large、BoV和BiLSTM作為基線探測實驗結果

實驗結果如表3所示。僅在warrant(W)上，BERT的準確率最高可達71%。與其最高峰值的77%差了6個百分點。

而(R，W)比(W)增加了4個百分點，(C，W)增加了2個百分點，這就是剛才說到了那6個百分點。

基於這一證據，研究人員發現BERT的全部表現可以通過利用虛假的統計線索來解釋。

對抗性測試集

由於數據集的原始設計，消除了ARCT中標籤統計線索的主要問題。

鑒於R∧A→?C，可以通過否定claim並反轉每個數據點的標籤來產生對抗性示例（如圖4所示）。

台灣小哥一篇論文把BERT拉下神壇！NLP神話缺了數據集還不如隨機

圖4 原始和對抗數據點。claim被否定，warrant被交換。W和A的標籤分配保持不變。

然後將對抗性示例與原始數據進行組合。這通過鏡像兩個標籤周圍的提示分布來消除該問題。

驗證和測試集中大多數claim的否定已經存在於數據集中的其他地方。剩下的claim被一個以英語為母語的工作人員人工進行動否定。

研究人員嘗試了兩種實驗設置。

首先，在對抗集上評估在原始數據上訓練和驗證的模型。由於過度擬合原始訓練集中的線索，所有結果都比隨機差。

其次，模型在對抗性訓練和驗證集上從頭開始訓練，然後在對抗性測試集上進行評估。其結果如表4所示。

台灣小哥一篇論文把BERT拉下神壇！NLP神話缺了數據集還不如隨機

表4 BERT Large在具有對抗性訓練和驗證集的對抗性測試集上的結果。

BERT的峰值性能降低至53％，平均值和中值為50％。從這些結果中得出結論，對抗性數據集已成功地消除了預期的線索，從而提供了對機器參數理解的更可靠的評估。

這一結果更符合研究人員對這個任務的直覺：由於對這些論點背後的現實知之甚少或一無所知，良好的表現應該是不可行的。

任務描述、基線、BERT與統計線索

任務描述和基線

設t i = 1, . . . ，n索引數據集D中的每個點，其中| D | = n。在每種情況下，兩個候選warrant被隨機分配二進位標籤j ∈ {0, 1}，使得每個具有相同的正確概率。輸入是c^（i）的表示，reason r^（i），保證零w₀^（i），並且保證一個w₁⁽ⁱ⁾ 。標籤y^（i）是對應於正確授權的二進位指示符。所有模型的一般體系結構如圖2所示。學習共享參數θ以獨立地使用參數對每個warrant進行分類，得到 logit：

z_j^（i）=θ[ c^（i）; r^（i）; w_j⁽ⁱ⁾ ]

然後將它們連接起來並通過softmax以確定兩個warrant上的概率分布p^（i）= softmax（[z₀^（i），z₁^（i）]）。那麼預測是y^（i）= arg max_jp^（i）。基線是一包載體（BoV），雙向LSTM（BiLSTM），SemEval獲勝者GIST，Botschen等人的最佳模型，人類表現（表1）。對於我們的所有實驗，我們使用網格搜索來選擇超參數，退出正則化和Adam進行優化。當驗證準確度下降時，我們將學習率anneal1/10。最終參數來自具有最大驗證精度的epoch。BoV和BiLSTM輸入是在640B上訓練的300維GloVe嵌入。GitHub上提供了重現所有實驗和詳細說明所有超參數的代碼。（https://github.com/IKMLab/arct2）

台灣小哥一篇論文把BERT拉下神壇！NLP神話缺了數據集還不如隨機

圖2：我們實驗中模型的一般架構。為每對argument-warrant獨立計算 logit，然後連接並通過softmax傳遞。

BERT

我們的BERT分類器如圖3所示。claim和reason連接在一起形成第一個文本段，與每個warrant配對並獨立處理。將最終層CLS向量傳遞到線性層以獲得對數z_j^（i）。整個架構都經過精心調整。學習率為2_e ^-5，我們允許最多20個訓練期，從最佳驗證集準確度的時期獲取參數。我們使用Hugging Face PyTorch實現。

台灣小哥一篇論文把BERT拉下神壇！NLP神話缺了數據集還不如隨機

圖3：使用BERT處理參數一對argument-warrant。reason（長度為a的單詞）和claim（長度b）一起形構成第一句話，而warrant（長度c）是第二句。然後將最終的CLS矢量傳遞到線性層以計算 logit z_j^（i）。

Devlin et al.報告說，在小型數據集上，BERT有時無法訓練，產生退化的結果。ARCT非常小，有1210次訓練觀察。在5/20運行中，我們遇到了這種現象，在驗證和測試集上看到接近隨機精度。這些情況發生在訓練準確性也不明顯高於隨機（<80％）的情況下。除去退化曲線，BERT的平均值為71.6±0.04。這將超過先前的技術水平 - 中位數為71.2％，這是一個比整體平均值更好的平均值，因為它不受退化情況的影響。但是，我們的主要發現是這些結果沒有意義，應該被丟棄。在接下來的部分中，我們將重點放在BERT的77％峰值性能上。

統計線索

ARCT中虛假統計線索的主要來源是標籤的不均勻分布。接下來便將展示這些線索的存在和性質。

雖然可能存在更為複雜的線索，但是研究人員只考慮了一元圖和二元圖的情況。

研究人員的目標是計算模型利用線索k的有益程度，以及它在數據集中的普遍程度(表示信號的強度)。

首先，定義幾個概念：

線索的適應性(applicability)：α^k，定義為在一個標籤上出現的數據點數；
線索的生產率(productivity)：π^k，定義為預測正確答案的適用數據點的比例；
線索的覆蓋率(coverage)：ξ^k，定義為適用情況占數據點總數的比例。

台灣小哥一篇論文把BERT拉下神壇！NLP神話缺了數據集還不如隨機

表2 適用「not」在warrant中的存在來預測ARCT中標籤的生產率和覆蓋率。

表2給出了研究人員發現的最強的unigram線索(「not」)的生產率和覆蓋率。它提供了一個特彆強的訓練信號。雖然它在測試集中的效率較低，但它只是許多這樣的線索之一。

研究人員還發現了許多其他的unigram，儘管總體生產率較低，但大多數是高頻詞，如「is」、「do」和「are」。與「not」連用的bigram，如「will not」和「can」，也被發現是高效的。

關於作者

論文作者均來自國立成功大學計算機科學與信息工程系智能知識管理實驗室，一作Timothy Niven，目前就讀於該校。

台灣小哥一篇論文把BERT拉下神壇！NLP神話缺了數據集還不如隨機

Hung-Yu Kao教授

二作Hung-Yu Kao，於1994年和1996年分別獲得國立清華大學計算機科學學士和碩士學位。2003年7月，他獲得台灣大學電氣工程系博士學位。他目前是國立成功大學醫學信息學研究所（IMI）和計算機科學與信息工程系（CSIE）的主任。他的研究興趣包括網路信息檢索/提取，搜索引擎，知識管理，數據挖掘，社交網路分析和生物信息學。他在國際期刊和會議論文集上發表了60多篇研究論文。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

TAG:新智元 |