EMNLP 2018 | 最佳論文出爐：谷歌、Facebook、CMU上榜

科技 09-23

機器之心報道

機器之心編輯部、專知

EMNLP 是自然語言處理領域頂級國際會議，每年吸引世界各國近千名學者交流自然語言處理髮展前沿。2018 年度 EMNLP 大會將於 10 月 31 日 - 11 月 4 日在比利時布魯塞爾舉辦。昨日 EMNLP 2018 公布了兩篇最佳長論文、一篇最佳短論文以及一篇最佳資源論文。

EMNLP 是自然語言處理領域的頂級國際會議，每年吸引世界各國近千名學者交流自然語言處理髮展前沿，前幾年長文的錄用率只有 26% 左右：

昨日 EMNLP 在官方 Twitter 上公布了兩篇最佳長論文、一篇最佳短論文、一篇最佳資源論文，獲獎論文詳細信息如下：

最佳長論文

1. 論文：Linguisti

cally-Informed Self-Attention for Semantic Role Labeling

論文地址：https://arxiv.org/abs/1804.08199 (http://www.zhuanzhi.ai/paper/87964e6ae3d40f170d2934d9cca009af)

摘要

：當前最先進的語義角色標記（SRL）使用深度神經網路而沒有明確的語言特徵。但是，之前的工作表明，語法樹可以顯著改善 SRL 解碼，這表明通過顯式語法建模可以提高準確性。在這項工作中，我們提出了基於語言學的 self-attention（LISA）：一種神經網路模型，它將 multi-head self-attention 與多任務學習相結合，包括依賴解析、詞性標註、謂詞檢測和語義角色標記。與先前需要大量預處理來準備語言特徵的模型不同，LISA 可以僅使用原始的 token 對序列進行一次編碼，來同時執行多個預測任務。語法信息被用來訓練一個 attention head 來關注每個 token 語法上的父節點。如果已經有高質量的語法分析，則可以在測試時進行有益的注入，而無需重新訓練我們的 SRL 模型。在 CoNLL-2005 SRL 數據集上，LISA 在謂詞預測、word embedding 任務上比當前最好的演算法在 F1 值上高出了 2.5（新聞專線數據）和 3.5 以上（其他領域數據），減少了約 10% 的錯誤。在 ConLL-2012 英文角色標記任務上，我們的方法也獲得了 2.5 F1 值的提升。LISA 同時也比當前最好的基於上下文的詞表示學習方法（ELMo）高出了 1.0 的 F1（新聞專線數據）和多於 2.0 的 F1（其他領域數據）。

2. 論文：

Phrase-Based & Neural Unsupervised Machine Translation

論文地址：https://arxiv.org/abs/1804.07755

代碼地址：https://github.com/facebookresearch/UnsupervisedMT

摘要

：機器翻譯系統在某些語言上實現了接近人類的能力，但它的性能依賴於大量的平行雙語語料，這降低了機器翻譯的適用性。本研究探討了如何在只有大規模單語種語料庫的情況下進行機器翻譯。我們提出了兩個模型（變式），一個基於神經網路和一個基於短語的模型。兩個模型都使用了精心設計的參數初始化、語言模型的降噪和基於迭代反向翻譯的並行預料生成。這些模型優於引用文獻中的方法，而且更簡單、具有更少的超參數。在廣泛使用的 WMT"14 English - French 和 WMT"16German - English 基準測試中，我們的模型分別獲得了 28.1 和 25.2 BLEU 點（在不使用平行預料的情況下），比當前最好的方法高出了 11 個 BLEU 點。在資源較少的語言如 English-Urdu 何 English-Romanian 中，我們的方法甚至比利用短缺的 bitexts 的半監督和監督方法要好。我們的 NMT 和 PBSMT 代碼現在已經公開了。

更多內容請參見：學界 | FAIR 新一代無監督機器翻譯：模型更簡潔，性能更優

最佳短論文

論文：How Much Reading Does Reading Comprehension Require? A Critical Investigation of Popular Benchmarks.

論文地址：https://arxiv.org/pdf/1808.04926.pdf

摘要

：最近在閱讀理解問題上有很多研究，它們一般都包含 (question, passage, answer) 元組。大概而言，閱讀理解模型必須結合來自問題和文章的信息以預測對應的回答。然而，儘管這一主題非常受關注，且有數百篇論文都希望更好地解決該問題，但許多流行基準的測試難度問題仍未得到解決。在本論文中，我們為 bAbI、SQuAD、CBT、CNN 和 Whodid-What 數據集建立了合理的基線模型，並發現僅帶有問題或文章的模型通常有更好的表現。在 20 個 bAbI 任務的 14 個中，僅帶有文章的模型實現了高達 50% 的準確度，它有時能與全模型的性能相匹配。有趣的是，雖然 CBT 提供了 20-sentence 的故事，但只有最後一句能進行相對準確的預測。

最佳資源論文

最佳資源論文的鏈接暫未公開，獲獎論文信息如下：