當前位置:
首頁 > 新聞 > 自然語言處理領域歐洲頂級會議EACL 2017傑出論文出爐

自然語言處理領域歐洲頂級會議EACL 2017傑出論文出爐

選自EACL 2017

機器之心編譯

參與:微胖,吳攀

自然語言處理領域歐洲頂級會議EACL 2017傑出論文出爐

自然語言處理領域的歐洲頂級會議 EACL 2017 將於當地時間 4 月 3-7 日在西班牙瓦倫西亞舉行,近日,該會議的官網公布了本屆會議的 4 篇傑出論文(Outstanding Paper),其中包括 3 篇長論文和 1 篇短論文。機器之心在本文中對這 4 篇論文分別進行了摘要介紹,同時也附帶了可查閱論文的相關鏈接。據官網介紹,對這 4 篇論文的宣講集中安排在會議的第五天(當地時間 4 月 7 日),更多信息請訪問其官網了解:http://eacl2017.org

論文一:循環神經網路語法能學到什麼句法?(What Do Recurrent Neural Network Grammars Learn About Syntax?)

鏈接:https://arxiv.org/abs/1611.05774

自然語言處理領域歐洲頂級會議EACL 2017傑出論文出爐

摘要:循環神經網路語法(RNNG)是近期提出的一個用於自然語言處理的概率生成模型家族。它們展示了最先進的語言建模以及解析效果。我們從語言學的角度,通過多種對模型和數據的磨蝕(ablation),用一個注意力機制(GA-RNNG)增強模型(以便近一步觀察),研究了它們學習的內容。我們發現,想要獲得最佳性能表現,關鍵就是詳細地為構成(composition)建模。通過注意力機制,我們發現中心語(headedness)在短語表徵中(帶有模型潛在注意力機制,該機制與人工中心語規則所做預測大部分一致,儘管也有些重要區別)起關鍵作用。通過在沒有非終結符標籤的情況下訓練語法,我們發現,短語表徵最低程度地取決於非終結符,這為向心性假設(endocentricity hypothesis)提供了支持。

自然語言處理領域歐洲頂級會議EACL 2017傑出論文出爐

圖 1:RNNG 的組成部分:一個堆棧、、生成辭彙的緩衝器和導致當前配置的過往動作的列表。每個部分都被嵌入了 LSTM,解析器狀態總結 ut(如圖)被視為頂層特徵,用於根據所有可行動作預測一個 softmax. 上圖源於 Dyer et al. (2016)。

自然語言處理領域歐洲頂級會議EACL 2017傑出論文出爐

圖 2:在每個 REDUCE 運行中,RNNG 的結構功能;右邊的網路是左邊結構的建模 (Dyer et al., 2016)。

論文二(短論文):用於實現主體構形範式的基於字元串的神經圖模型(Neural Graphical Models over Strings for Principal Parts Morphological Paradigm Completion)

鏈接:https://ryancotterell.github.io/papers/cotterell+ala.eacl17.pdf

自然語言處理領域歐洲頂級會議EACL 2017傑出論文出爐

摘要:世界上很多語言都存在豐富的詞素(lexeme)相互影響的形式。處理這類語言的主要任務就是預測這些相互影響的形式。我們提出了一種新的統計模型,該模型利用了圖建模技術(graphical modeling techniques)以及深度學習近期取得的一些進展。我們求導了一個 Metropolis-Hastings 演算法來一起解碼該模型。我們這個貝葉斯網路的靈感來自主體構形分析(principal parts morphological analysis)。我們也證實了,在五種語言中,這一方法確實改善了預測效果。

自然語言處理領域歐洲頂級會議EACL 2017傑出論文出爐

圖 1:兩個潛在的圖模型,用於實現範式完成。(a)的拓撲結構編碼了網路,其中所有的形式都是依據詞素預測出來的。(b)是一個以主體構形為靈感的拓撲結構。

論文三:使用 GAP 過渡的增量不連續短語結構解析(Incremental Discontinuous Phrase Structure Parsing with the GAP Transition)

鏈接:http://www.llf.cnrs.fr/sites/llf.cnrs.fr/files/u485/eacl2017.pdf

自然語言處理領域歐洲頂級會議EACL 2017傑出論文出爐

摘要:本文介紹了一種用於不連續詞法化成分解析(discontinuous lexicalized constituent parsing)的全新的過渡系統(transition system),稱為 SR-GAP。這是帶有一個額外的 GAP 過渡的移位歸約演算法(shift-reduce algorithm)的一種擴展。在兩個德語樹庫上的評估表明 SR-GAP 的表現極大地優於之前最佳的基於過渡的不連續解析器(Maier, 2015)(在不連續成分的預測精度上達到了顯著的 2 倍),並且可媲美當前最佳(Daniel Fernández-González and André F. T. Martins, 2015)。我們還有一個附帶貢獻——將跨度特徵(span features,Hall et al., 2014)調整應用到了不連續解析上。

自然語言處理領域歐洲頂級會議EACL 2017傑出論文出爐

圖 1:從 Tiger 語料庫(移除了標點)中提取出的不連續樹

自然語言處理領域歐洲頂級會議EACL 2017傑出論文出爐

圖 2:詞法化的二值化樹。符號 * 編碼了頭信息。添加了後綴 : 的符號是由二值化所引入的臨時符號。

論文四:用於細粒度實體類型分類的神經架構(Neural Architectures for Fine-grained Entity Type Classification)

鏈接:https://arxiv.org/abs/1606.01341

自然語言處理領域歐洲頂級會議EACL 2017傑出論文出爐

摘要:在本研究中,我們調查了幾種用於細粒度實體類型分類的神經網路架構,並做出了三個關鍵貢獻。儘管這是一個自然的比較和補充,但之前在注意神經架構(attentive neural architecture)上的研究並沒有考慮人工設計的特徵,而我們將這種特徵和學習到的特徵結合到了一起並且確認它們是可以優勢互補的。此外,通過定量分析,我們發現這種注意機制學會了關注句法頭(syntactic head)和包含該提及(mention)的短語,這兩個對我們的任務而言都是已知的強人工特徵。我們通過一種分層編碼方法引入了在標籤之間共享的參數,其在低維投射(low-dimensional projections)中為每種類型層次都表現出了清晰的聚類。最後,儘管使用了同樣的評估數據集,但文獻經常將使用不同數據訓練的模型加以比較。我們的研究表明訓練數據的選擇會給表現帶來極大的影響,之前提出的方法可以有多達 9.85% 的 loose micro F1 分數減少。儘管有這樣的差異,但我們最佳的模型在 75.36% 的 loose micro F1 分數上實現了當前最佳的結果,該結果是在成熟的 FIGER (GOLD) 數據集上得到的;而且我們也在 OntoNotes 數據集的公開可用數據上訓練的模型上實現了最佳結果,其 loose micro F1 分數為 64.93%。

自然語言處理領域歐洲頂級會議EACL 2017傑出論文出爐

自然語言處理領域歐洲頂級會議EACL 2017傑出論文出爐

圖 1:在表達「a match series against New Zealand is held on Monday」中預測提及「New Zealand」的細粒度語義類型的注意編碼器神經模型(attentive encoder neural model)的圖示

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

亞馬遜Alex Smola:為什麼你的機器學習代碼運行速度慢
馬斯克成立Neuralink:用植入電極增強人腦計算能力
深度|遷移學習全面概述:從基本概念到相關研究
真實版《阿凡達》:韓國研究者開發出意念控制烏龜的腦機介面
觀點|機器學習確實還沒商品化,但也不是必需博士學位

TAG:機器之心 |

您可能感興趣

自然語言處理領域的前沿技術:EMNLP 2017最佳論文公布
「IJCAI 2017」最佳學生論文屬華人,領域主席歐美中三分天下
GMIS 2017大會俞棟演講:語音識別領域的四項前沿研究
TMT領域TOP所,達輝律師哪裡強-2017中國最高薪酬律所調研白皮書(三)
晶圓廠滿載到10月;2017最新感測器技術匯總;傳索尼即將發布自研發CPU;英特爾、高通對決VR/AR、AI全新領域
VALSE2017系列之七:視覺與語言領域年度進展概述
VR/AR領域裡5位90後優秀創業者
2017世界500強榜單公布華為進入百強國產科技領域NO.1
微型LED蘋果手錶或在2018年推出 顛覆顯示技術領域
智融集團CTO齊鵬詳析:AI如何處理金融領域的弱特徵數據?丨CCF-GAIR 2017
FPGA研究領域奠基者,北京大學高能效計算與應用中心主任叢京生 | CNCC 2017
年度盛典 神州行峰會頒發2017 VR/AR領域六項大獎
AMiner發布計算機領域知識圖譜,包括20多萬條專家信息、50多萬篇出版論文
基於雲計算領域 美光發布旗艦9200系列SSD
ARM發布Mali-C71處理器,專註自動駕駛領域
西部數據推出X4 3D NAND技術,進一步強化其在X4 2D NAND技術多級單元存儲領域 業界領導地位
P&E2017:索尼微單系統展示多領域解決方案
盤點2013-2016年國際巨頭在AI領域的布局
HTC 11億美元出售手機製造團隊,將更集中在VR/AR/AI領域