當前位置:
首頁 > 新聞 > 參會見聞系列:ACL 2018,在更具挑戰的環境下理解數據表徵及方法評價

參會見聞系列:ACL 2018,在更具挑戰的環境下理解數據表徵及方法評價

雷鋒網 AI 科技評論按:本篇屬於「頂會見聞系列」。每年這麼多精彩的人工智慧/機器學習會議,沒去現場的自然可惜,在現場的也容易看花眼。那麼事後看看別的研究員的見聞總結,也許會有新的收穫呢。

Sebastian Ruder 是 Data Analytics 的 Insight 研究中心的在讀博士生,也是 AYLIEN 的研究科學家。在此之前他曾在微軟、IBM 深藍以及谷歌代碼夏令營工作。他的主要研究興趣是用於領域適配的深度學習。這篇文章由 Sebastian Ruder 發表在 AYLIEN 博客,是一篇深入、全面的 ACL 2018 會議論文研究亮點回顧。雷鋒網 AI 科技評論全文編譯如下。

今年 7 月15 日至 20日,我有幸參加了於澳大利亞·墨爾本舉辦的第 56 屆計算機語言學年會,即 ACL 2018,並且發表了三篇論文(http://arxiv.org/abs/1804.09530,http://arxiv.org/abs/1801.06146,http://arxiv.org/abs/1805.03620)。想要將整個 ACL 2018 的內容歸納在一個主題下無異於異想天開。然而,細細品味一下,還是能明顯地看出一些重要的議題。在 2015 和 2016 年的自然語言領域的學術會議中,詞嵌入技術可謂一統天下。那時許多人甚至認為,與其將 EMNLP(自然語言處理領域的頂會之一)解釋為「自然語言處理實證方法(Empirical Methods in Natural Language Processing)」還不如將其解釋為「自然語言處理嵌入方法(Embedding Methods in Natural Language Processing)」。

斯坦福大學 NLP 掌門人 Christopher Manning 曾在一次演講中提到,2017 年是 BiLSTM+attention 之年(帶有注意力機制的雙向 LSTM)。儘管帶有注意力機制的 BiLSTM 仍然無處不在,但在我看來,這項大會的主要內容還是在於更好地了解這些模型捕獲的表徵並更具挑戰的環境中採用這些表徵。我關注的主要是涉及到以上主題的工作,也會討論一些其他我感興趣的主題。


理解數據表徵

探測模型

令人耳目一新的是,許多論文對現有的模型以及它們所捕獲到的信息進行了翔實的分析,而不是繼續引入看上去更炫酷的新模型。目前,要做到這一點最常見的做法是自動創建一個數據集,它側重於泛化能力的某一個方面,然後在這個數據集中評估不同的訓練過的模型:

理解目前最先進的模型

儘管上面提到的研究工作都是試圖了解某個特定的模型類別的泛化能力的某個層面,本屆 ACL 還有一些論文著眼於更好地理解目前用於特定任務的最好的模型:

Glockner 等人(http://arxiv.org/abs/1805.02266)著眼於自然語言推理的任務。他們創建了一個數據集,該數據集中的句子與訓練數據中的句子最多只有一個單詞不同,這樣做是為了測試模型是否可以進行簡單的辭彙推斷。他們發現當前最佳的模型無法完成許多簡單的推斷工作。

Mudrkarta 等人(https://arxiv.org/abs/1805.05492)對當前最頂級的 QA 模型進行了跨模態分析,發現這些模型常常會忽略關鍵發問詞。接著,他們對問題進行了擾動處理,以製造可以大大降低模型準確率的對抗樣本。

我發現許多論文對模型的不同層面進行了探索。我希望這些新出現的數據集可以成為每位自然語言處理研究人員工具包中的標準工具。這樣一來,我們不僅可以在未來看到更多這樣的論文,而且這樣的分析也可能成為除誤差分析和模型簡化測試以外標準模型評估的一部分。

分析歸納偏倚

另一種更好地了解一個模型的方式是分析模型的歸納偏倚。自然語言處理神經架構的語言結構相關性 workshop(RELSNNLP workshop)試著探究將語言結構融入模型有多大的作用。Chris Dyer 在 workshop 上的發言的重點之一是:循環神經網路(RNN)對自然語言處理(NLP)是否具備有用的歸納偏倚。特別是,他認為有幾條明顯的證據可以證明RNN 更偏向於順序近因效應,即:

隨著時間的推移,梯度會逐漸衰減。LSTM 或 GRU 可能會幫助我們減緩這種趨勢,但它們也會遺忘掉梯度的信息。

人們在訓練機器翻譯模型時會使用反轉輸入序列這樣的訓練機制。

人們使用類似注意力機制的增強功能與時間上更早期的內容建立直接的聯繫。

針對主謂一致建模,誤差率會隨著吸引子的增加而增加(http://arxiv.org/abs/1611.01368)。

據 Chomsky 所言,順序近因效應並不是學習人類語言的正確偏倚,因此就語言建模任務而言,RNN 網路帶有的偏倚似乎並不是很合適。這樣的做法在實踐中就可能會導致統計意義上的效率低和以及泛化能力差的問題。語法 RNN (http://arxiv.org/abs/1602.07776)是一類通過將句子壓縮成其成分來順序生成一個樹結構以及一個序列的模型,而不是對句法(而非順序)近因有偏倚。

然而,要確定模型是否具有有用的歸納偏倚通常是很難的。為了識別出主謂一致關係,Chris 假設 LSTM 語言模型學習到了一種非結構性的「第一名詞」啟發式,它依賴於將動詞與句子中的第一個名詞相匹配。通常來說,困惑度(以及其他評價指標)與句法能力或結構能力相關。然而,在從使用更簡單的啟發式的模型中區分出結構敏感的模型時,困惑度則並不是特別敏感。

使用深度學習技術理解語言

Mark Johnson 在 workshop 的演講中提到,儘管深度學習為自然語言處理帶來了很大程度的革命,但它的主要的好處還在於其經濟性:用端到端模型代替了對成分複雜的處理流程,往往可以更快、更容易地實現目標準確性。深度學習並未改變我們對語言的理解,從這個意義上說,深度學習主要的貢獻在於證明神經網路(或者說這種計算模型)可以執行某些自然語言處理任務,這也表明這些任務並不是智能的指標。雖然深度學習方法可以很好地對匹配和執行感知任務進行建模,但對於依賴於有意識的反應和思考的任務,它們的表現仍然差強人意。

引入語言結構

Jason Eisner 在演講中對「語言結構和類別是否真的存在」這一問題提出質疑:是真的存在結構和類別,還是只不過「科學家們就是喜歡把數據分成堆」,因為不考慮語言結構的方法在機器學習任務中也可以表現得驚人的好。他發現即使是像音素「/b/」和音素「/p/」之間的差異這樣「任意定義」的類別劃分也會被進一步加強,然後具有一些意義。相比之下,神經網路模型就好比是性能良好的海綿,它可以吸收任何沒有被顯式建模的東西。

他提到了四種常用的方法,用以在模型中引入語言結構信息:a)通過基於流水線的方法,將語言類別作為特徵引入;b)通過數據增強,用語言類別對數據進行擴充;c)通過多任務學習引入語言結構;d)通過結構化建模,例如使用基於轉換的解析器、循環神經網路語法,甚至是像 BIO 標記法這樣相互依賴的類引入語言信息。

Emily Bender 在也在 workshop 上有個演講,其中她對「與語言無關的學習」整個想法提出了質疑:即便你已經有一個某種語言的巨大的語料庫,且你對這種語言其一無所知,那麼在沒有任何先驗信息的情況下(例如,什麼是功能詞),那麼你就無法學到句子的結構或含義。她還指出許多機器學習論文將它們的方法描述得類似於嬰兒學習的過程,但卻沒引用任何實際的發展心理學或語言獲得方面的文獻。實際上嬰兒學習環境是有特殊情境、多種因素共同作用、帶有主觀感情的,它們包含了很多信號和意義。

理解 LSTM 的故障模式

更好地理解表徵也是自然語言處理表徵學習 workshop(Representation Learning for NLP workshop)的一個主題。Yoav Goldberg 在 workshop 上的演講中詳細介紹了他的小組為了更好地理解 RNN 的表徵所做出的努力。特別是,他討論了最近從 RNN 中提取有限狀態自動機從而更好地了解模型學習到了什麼的工作(http://arxiv.org/abs/1711.09576)。他還提醒聽眾,就算是在某一個任務上訓練過的,LSTM 表徵並不是只針對特定的任務有效的。它們通常預測的是像數據分布統計這樣的超出人類預期之外的層面。即便當模型用領域對抗損失來產生具有某種不變性的表徵,表徵的預測能力仍然會帶有一些剛才說的那樣的性質。因此,從編碼語言數據中完全刪除不需要的信息也是一個挑戰,就算是看上去很完美的LSTM 模型也可能具有潛在的故障模式。

對於關於 LSTM 的故障模式的話題,今年獲得 ACL 終身成就獎的 Mark Steedman也表達了與此主題非常契合的觀點:「LSTM 在實踐中是有效的,但是它們在理論上也是正確的嗎?」


在更具挑戰的環境下進行評估

對抗性樣本

一個與更好地了解現有最佳模型的限制密切相關的主題是提出該如何改進這些模型的方法。與上面提到的文章提及的對抗性樣本論文(https://arxiv.org/pdf/1805.05492.pdf)相似,有幾篇文章試著使模型在面對對抗性樣本時的魯棒性更強:

Cheng 等人(https://arxiv.org/abs/1805.06130)提出使自然語言機器翻譯模型中的編碼器和解碼器在對抗輸入擾動時更加魯棒。

Ebrahimi 等人(http://arxiv.org/abs/1712.06751)提出白盒對抗性樣本,通過替換少量的單詞來欺騙字元級別的神經網路分類器。

Ribeiro 等人(http://aclweb.org/anthology/P18-1079)在之前的方法基礎上加以改進。他們引入了保留語義、但會讓模型的預測發生改變的擾動,然後把它泛化到會在許多實例下產生對抗性狀況的規則上。

Bose 等人(https://arxiv.org/abs/1805.03642)用對抗學習採樣器將對抗性樣本和雜訊對比評估結合在一起,該採樣器會發現更難的負例,這樣模型就可以更好地學習表徵。

學習魯棒和公平的表徵

Margaret Mitchell 專註於公平且可以保護隱私的表徵。她特彆強調了有關世界的描述性視角和規範性視角之間的區別。機器學習模型學習的表徵反應了對應的訓練數據的描述性視角。訓練數據代表了「人們口中的世界」。然而,有關公平性的研究也在試圖創建可以反應世界的規範性視圖的表徵,這就要獲得我們的價值觀並將其注入到表徵中去。

改進評估方法

除了增強模型的魯棒性,還有幾篇文章試圖改進評估模型的方法:

Finegan-Dollak 等人(http://arxiv.org/abs/1806.09029)明確了現有 text-to-SQL 系統的評估方法並提出了改進方法。他們認為現有的訓練集-測試集分割和變數匿名化過程存在缺陷,於是他們提出了七個數據集的標準改進版本以修復這些缺陷。

Dror 等人的工作(https://ie.technion.ac.il/~roiri/papers/ACL-2018-sig-cr.pdf)則關注於一種老生常談、但很少被真正實踐或做的不好的做法:統計顯著性檢驗。特別地,他們調查了近些年的ACL 和 TACL 2017 中的實證論文後發現,統計顯著性檢驗常被忽略或誤用,於是他們提出了一種用於自然語言處理任務的簡單的統計顯著性檢驗選擇協議。

Chaganty 等人(http://arxiv.org/abs/1807.02202)調查了如 BLEU 和 ROUGE 這樣的自動指標的偏差,然後發現即使是無偏估計也只能相對地減少誤差。該工作強調了改進自動指標的相關性和減少人類標記的方差的必要性。

強大的對比基線

另一種改善模型評估的方式是將新模型和更強的基線進行比較,這是為了確保改進的方法效果顯著。以下是一些著眼於這個研究方向的論文:

Shen 等人(https://arxiv.org/abs/1805.09843)系統地比較了帶池化技術的基於詞嵌入的方法和像 LSTM 和 CNN 這樣更複雜的模型。他們發現對大多數數據集而言,基於詞嵌入的方法都表現出了與後者相當、甚至更好的性能。

Ethayarajh (http://www.aclweb.org/anthology/W18-3012)在 RepL4NLP workshop 上針對句子嵌入模型提出了一種強大的對比基線。

與此同時,Ruder 和 Plank (https://arxiv.org/abs/1804.09530)發現像「Tri-training」這樣的經典的自展演算法為半監督學習提供了強大的基線,其結果甚至要比當前最佳的方法還要好。

在上文中,我們強調了在像超出分布的數據上和針對不同任務這樣更具挑戰的環境中進行評估的重要性。如果我們僅僅只關注單個任務或領域內數據,研究結果則會有所不同。我們需要在對抗條件下測試模型以更好地了解模型的魯棒性以及它們在實際問題中的泛化能力。

創建更具有挑戰性的數據集

想要在這樣的環境下進行評估,就需要創建更具挑戰的數據集。Yejin Choi 在 RepL4NLP 的圓桌討論(總結請參閱:https://twitter.com/seb_ruder/status/1020196710050455554)中指出,大家對於 SQuAD 或 bAbI 這樣過於簡單並且基本已經解決了的任務投入了過多的注意力。Yoav Goldberg 甚至認為「SQuAD 就好比自然語言處理領域的 MNIST數據集(圖像識別最基礎的數據集之一)一樣」。相反,我們應該將注意力集中在更具有挑戰性的任務以及開發更多難度更高的數據集上。但是如果數據集過於複雜,人們也無法對其進行處理。實際上,人們不應該花費過多時間處理數據集,因為人們最近已經可以高效地對數據集進行處理,而創建新的、更具挑戰的數據集更為重要。本屆 ACL 會議上,研究人員提出了兩個用於閱讀理解、試圖超越 SQuAD 的數據集:

在多種資源質量較差的語言中進行評估

另一個重要的議題是要在多種語言上評估模型。Emily Bender 調查了 50 篇 NAACL 2018 的論文,她發現有 42 篇都評估了一種沒有指出名字的神秘語言(當然是英語了)。她強調,為每項工作處理的語言命名很重要,因為不同語言有不同的語言結構;不提及處理的語言會讓研究結論變得模糊。

如果我們將自然語言處理的方法設計為跨語言方法,那麼就應該在資源質量較差的語言這樣更具挑戰的設置上對其進行額外的評估。舉例而言,下面的兩篇論文都指出,如果目標語言與愛沙尼亞語或芬蘭語都不同的話,現有的無監督雙語字典方法都會失效:

S?gaard 等人(https://arxiv.org/abs/1805.03620)進一步探討了現有方法的局限性並指出:當嵌入是在不同領域上訓練或使用不同演算法時,這些方法都會失敗。他們最終提出一個度量標準來量化這些方法的潛力。

Artetxe 等人(https://arxiv.org/abs/1805.06297)提出一種新的無監督自訓練方法,該方法採用了更好的初始化來引導優化過程,這種方法對於不同的語言對而言十分強大。

此外,還有其他幾篇文章也在資源質量較差的語言上評估了他們的方法:

Dror 等人(https://www.cs.rochester.edu/u/gildea/pubs/riley-gildea-acl18.pdf)建議用正交特徵歸納雙語詞典。儘管這主要對相關的語言有幫助,但它們也可以對如英語-芬蘭語這樣的不相似的語言對進行評估。

Ren 等人(http://arxiv.org/abs/1805.04813)最後建議利用另一種資源豐富的語言輔助資源匱乏的語言的翻譯。他們發現他們的模型顯著提升了罕見語種的翻譯質量。

Currey 和 Heafield (https://kheafield.com/papers/edinburgh/unsupervised_tree_paper.pdf)提出一種採用 Gumbel tree-LSTM 的用於自然語言機器翻譯的無監督的 tree-to-sequence 模型。結果證明他們的模型對資源質量較差的語言而言尤其有用。


自然語言處理研究的進展

會議期間的另一個議題是自然語言處理領域取得的顯著進展。ACL 主席 Marti Hearst 在她的主旨演講中涉及到了這個部分。她過去常以 Stanley Kubrick 的HAL 9000(見下圖)為例來展示我們的模型能做和不能做的事。近些年,由於我們的模型已經學會執行像識別和生成人類演講和唇形識別這樣十幾年前無法完成的任務,因此她這樣的做法現在就顯得有點無聊了。誠然,我們離像辯論這樣需要深度理解語言和推理的任務還是很遠,但是自然語言處理取得的進展還是十分顯著的。

Hal 9000. (Source: CC BY 3.0, Wikimedia)

Marti 還引用了自然語言處理(NLP)和信息檢索(IR)的先驅者 Karen Sp?rck Jones 的話:「研究不是在繞圈,而是在攀爬螺旋式的樓梯。打個未必恰當的比方,這些樓梯未必是相連的,但是它們都朝著同一個方向前進」。她還表達了一種能引起許多人的共鳴的觀點:在 20 世紀 80 和 90 年代,只有少數的論文可供閱讀,緊跟最新的科研成果就容易得多。為了使緊跟最新成果變得更容易,我最近建立了一個新文檔(http://nlpprogress.com)以收集針對不同自然語言處理任務的最新的成果。

自然語言處理領域正處於蓬勃的發展中,她鼓勵人們參與到 ACL 中,貢獻自己的一份力量。她還為最努力工作的 ACL會員頒發了 ACL 傑出服務獎。此外,ACL 2018 還(在 1982 年的 EACL 和 2000 年的NAACL 之後)啟動了其第三個子會議 AACL(計算語言學協會亞太分會:http://aaclweb.org/)

本屆 ACL 的會務會談重點討論了該如何應對隨著研究的發展所產生的挑戰:提交的論文數量不斷增加,因此需要更多的審稿人員。我們期望在明年的會議上看到新的可以處理大量提交論文所做的努力。


強化學習

讓我們把視線拉回到 2016 年,那時人們就在尋找強化學習(RL)在自然語言處理中的用武之地,並將其應用在越來越多的任務中。近一段時間,儘管監督學習看起來更加適用於大多數任務,但對某些具有時序依賴的任務(例如在訓練和建模對話時選擇數據)來說,強化學習的動態特性使其成為最有用的方式。強化學習的另一個重要應用是直接優化像 ROUGE 或 BLEU 這樣的度量指標,而不是優化像交叉熵這樣的替代損失。文本總結和機器翻譯是這一領域的成功應用案例。

逆向強化學習在過於複雜而無法指定獎勵的環境中有很大的價值。視覺化敘事是這方面的一個成功的應用案例。深度學習特別適用於在自然語言處理領域中如玩一些基於文本的遊戲、瀏覽網頁並完成相應的任務這樣的序貫決策問題。「用於自然語言處理的深度強化學習教程」(https://www.cs.ucsb.edu/~william/papers/ACL2018DRL4NLP.pdf)提供了對這一領域全面的概述。

教程

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

TechCrunch峰會王琦:人「攻」智能,黑客助力新技術的健康發展
特大黑客盜竊虛擬貨幣案告破,涉案金額達 6 億

TAG:雷鋒網 |