當前位置:
首頁 > 知識 > 2017年ACL的四個NLP深度學習趨勢(一):語言結構和辭彙嵌入

2017年ACL的四個NLP深度學習趨勢(一):語言結構和辭彙嵌入

介紹

在本月初我在溫哥華出席的ACL(國際計算語言學協會 (ACL,The Association for Computational Linguistics) )時Joakim Nivre宣布:「NLP正在蓬勃發展」。參加人數眾多的人士認為,學術界對NLP的興趣已經處於歷史最高點,主要是因為深度學習的成功。

然而,我參加ACL時注意到的一個研究人員的焦慮,因為一個領域正在快速發展轉型。研究人員對是否將舊的NLP演算法遺留下來還是拋棄,他們產生了焦慮!神經網路是我們需要的唯一技術嗎?我們如何做好科學,論文發表在arXiv上算是真的成功嗎?

2017年ACL的四個NLP深度學習趨勢(一):語言結構和辭彙嵌入

雖然這些問題在ACL上不時出現,但研究人員整體的狀態仍然是積極的。在2017年的ACL,NLP社區繼續熱情地接受深度學習。在這篇文章中,我將就NLP研究發展的趨勢發表自己的看法。

關於這篇文章

在接下來的兩篇文章中,我會闡述在會議(及其共同的活動)中,我通過論文,演講和討論上觀察到的四個NLP的研究趨勢。它主要集中在深度學習,序列模型,序列到序列框架。第一部分將探討兩個相互關聯的趨勢:語言結構和詞語表達。

趨勢1:語言結構回歸(Linguistic Structure)

最近深度學習的復興已經強調了NLP的簡單統一範式:語句只是單詞序列(language is just sequences of words)。根據這個邏輯,任何更深的網路結構都是不必要的,只需訓練一個RNN的 end-to-end,隨機梯度下降就能找出答案!雖然這種方法已經迅速地獲得了巨大的成功,但其局限性正變得越來越明顯。在2017年的ACL,幾位著名研究人員反對「語句只是單詞序列」的邏輯,並提出了理論,既實用又有原則。那麼為什麼NLP應該重新回到語言結構呢?

原因1:減少搜索空間

米雷拉·拉帕拉(Mirella Lapata)質疑了RNN序列到序列框架的霸權地位。在她非常有趣的主題演講中,認為所有的語言特徵都應該被丟棄。相反,她得出結論:語言結構正在歸來,並通過示例提供了一個例子來解釋。她認為語言結構可以減少輸出的搜索空間,從而更容易地生成良好的輸出。

例如,代碼生成涉及「生成前10個平方數的列表」的自然語言語句映射到相應的代碼片段,例如Python中的「[x ** 2 for x in range(10)]」。已經嘗試使用標準序列到序列方法完成這個任務,該方法將代碼簡單地稱為標記序列,而不是其底層樹結構。這使得生成任務在所有標記序列的整個輸出空間上是無約束的搜索。搜索任務容易產生不正確的輸出(例如,解碼器可能生成不匹配括弧的代碼)。在ACL論文中,Yin和Neubig和Rabinovich等人 採取結構化預測方法,直接生成底層的抽象語法樹。這種方法將搜索空間限制在格局良好的底層樹上,消除了不合格的輸出。

語言結構不僅對於具有代碼生成和語義解析等高度形式化的輸出任務具有明顯的幫助,而且它也可以幫助減少不太明顯的任務的搜索空間,如cloze式閱讀理解。Xie和Xing構造了一個只探索這些節點的系統,他們認為這比瀏覽文檔中探索所有可能的節點要容易得多。

原因2:語言支架(Linguistic scaffolding)

2017年ACL的四個NLP深度學習趨勢(一):語言結構和辭彙嵌入

諾亞史密斯在主旨演講中反對他所謂的「全南瓜飲食」——線性變換+擠壓函數(又稱神經網路)作為NLP的唯一模型。相反,他鼓勵大家思考NLP模型的歸納偏差,即模型的基本假設,以及這些假設如何影響他們學習的內容。

史密斯特彆強調了多任務學習的力量,並將它視為引入理想的歸納偏差的一種方法。ACL看到幾篇論文成功地採用了這種方法,特別是Eriguchi等人和吳等人為NMT設計了新的混合解碼器,它使用shift-reduce演算法來同時生成和解析目標序列。

NMT +解析系統的聯合,似乎優於序列順序系統,也可能受益於減少搜索空間。對於長句子,NMT性能不佳,聯合解析輸出可以消除來自搜索質量差的輸出,從而允許搜索在更好質量的候選者之間進行選擇。

原因3:句法近因>連續近因

克里斯·戴爾(Chris Dyer)認為,將語言結構納入深度學習領域是非常重要的。像諾亞·史密斯一樣,他也要求注意順序方法中固有的歸納偏差,他認為RNN對順序回歸具有歸納偏倚,而語法指導的層次結構(如遞歸NN和RNNGS)對語法近似性具有歸納偏倚。戴爾認為語言本質上是層次性的,結論是句法近因是對順序近因的一種優選的歸納偏差。

在ACL中,有幾篇文章指出,RNN明顯無法捕獲遠程依賴關係,而是使用遞歸模型可以進行改進。例如,在用語法感知編碼器和解碼器進行改進的神經機器翻譯中。他們發現使用遞歸編碼器可以提高整體性能,對於較長的句子而言,改進的程度更大。

期待

雖然語言結構復甦,但仍有一些障礙,因為實施多任務學習是繁瑣的。非順序架構在GPU上更難以並行化(但是新的動態庫提供更簡單和更有效的實現方法)。結構化預測任務的監督學習可能會受到缺乏並行數據的阻礙。幸運的是,在2017年的ACL都Liang等人。和Iyyer等人 使用弱勢監督通過語義解析來執行任務,注意它是無需訪問分析本身。

趨勢2:重新考慮Word嵌入(Word Embeddings)

word嵌入是一種分散式的特徵表述,向量的不同維度用來表徵不同特徵,不同維度上就代表著不同的語義。例如蘋果和紅旗都是紅色的,蘋果和香蕉都是水果。

今年題為「word嵌入」的論文數量從10個下降到了4個,儘管如此,詞嵌入仍然是一項標準的技術。今年ACL的相關文章非常有趣,也許是因為詞嵌入已經通過「炒作」階段進入了「審查」階段。這些論文探討了詞嵌入成功與失敗的界限,它做什麼,以及如何改善自己的弱點。

更好地理解單詞嵌入

令人驚訝(但經常被誇大)的詞嵌入的成功是他們的添加組合結構,令人難以置信的Skip-Gram-Zipf + Uniform = Vector Additivity旨在解釋這一成功。作者證明了,用跳過式模型訓練的分布詞嵌入,在某些假設下具有可加性。最顯著的是這些詞是均勻分布的,雖然訓練語料庫不是均勻分布的,但是這個結果可能會解釋詞嵌入為什麼具有的可加性。

其他論文研究了分詞假設在詞嵌入上的局限性。Li和Gauthier研究的問題:是否為現實世界準備了分配代理?,他們發現在詞嵌入捕獲某些概念特徵,它們並不傾向於捕獲感性特徵。該論文儘可能的呼喚基礎學習,正如通過建立機器人語言接地新研討會所證明的那樣。

詞嵌入的另一個更明顯的問題是它們不考慮多義詞,而是分配每個表面形式一個向量。Upadhyay et al(論文),利用多語言並行數據來學習多義詞單詞嵌入,例如,將英文單詞庫翻譯成法語單詞banc和banque都是銀行多義詞的證據。在多模態詞分布中,Athiwaratkun和Wilson沒有用單向量表示單詞,而是用它表示具有多種模式的高斯概率分布,從而捕捉到不確定性和多義詞。

2017年ACL的四個NLP深度學習趨勢(一):語言結構和辭彙嵌入

去分詞

標準的詞嵌入最難解決的限制是對形態信息的盲目性。因為在處理這樣的問題時,總是將每個表面形式作為一個單獨的匿名單元來處理。這可能會導致諸如無法識別兩個詞(例如走路者和步行者)具有相同的引理(步行)的問題。這是最近從詞嵌入轉向字表示的主要原因。

作為潛在的新標準CNN出現有人質疑它是依靠形態學解決的?今年的ACL至少有兩篇論文表達了的否定態度。Vania和Lopez比較了幾個子片語合表示的語言建模性能,發現它們中沒有一個表現的能夠與獲得形態學注釋的模型一樣。即使提供原始輸入模型進行多次的訓練,這一結果仍然保持不錯的性能。

2017年ACL的四個NLP深度學習趨勢(一):語言結構和辭彙嵌入

這些結果表明,如果我們想要真正有形態意識的辭彙表示,我們可能需要一個更明確的形態模型,而不僅僅是字元組成。在他們的變形論文中,Vuli?通過使用非語言學家編寫的一些非常簡單的形態規則來微調詞嵌入。同時,Cotterell和Schütze提出了一個更全面的形態學模型,共同學習一個可以將一個單詞劃分成其形態組分的系統(例如,questionably→ question+ able+ ly)。我認為這是一個非常有價值的方法,因為任何形態理解系統都必須能夠構成和分解意義。雖然該模型在評估任務上表現良好,但我想了解的是如何輕鬆地將其轉移到諸如句法解析或語言建模等外部任務中。

2017年ACL的四個NLP深度學習趨勢(一):語言結構和辭彙嵌入

期待

詞語是語言的基礎,所以當我們選擇如何建模語言時,我們的假設是重要的。儘管分散式語義對我們來說已經很好,但是這些語言不僅僅是它們出現的語境。在未來的幾年中,我認為我們將會看到更多的基礎,視覺和互動語言學習來補充分散式表示。

本文由北郵@愛可可-愛生活老師推薦,阿里云云棲社區組織翻譯。

文章原標題《machine-learning-vs-statistics》,

作者:abigail Chris Manning教授的博士生

個人網站:http://www.abigailsee.com

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雲棲社區 的精彩文章:

一份語言選擇指南帶你玩數據科學,選出你心中支持的語言
TensorFlow中的那些高級API
阿里雲專家看負載均衡SLB:高可用的四個層次
記錄電商時代下的技術人:訪談阿里高級專家玄宗,我的十年阿里路
如何利用VR和AR提升客戶服務質量 這四個例子或許可以幫到你

TAG:雲棲社區 |