「頂會見聞系列」之 EMNLP 2018 詳細參會見聞(下篇)
雷鋒網 AI 科技評論按:本篇屬於「頂會見聞系列」。Patrick Lewis 是 UCL 的自然語言處理博士生,早前參加了 EMNLP 2018,並在個人博客寫下了他的參會見聞,雷鋒網 AI 科技評論對此進行了有刪節的編譯。本文為頂會見聞的下篇,上篇可移步《「頂會見聞系列」之 EMNLP 2018 詳細參會見聞(上篇)》進行閱讀。
EMNLP Session 2
《Adaptive Document Retrieval for Deep Question Answering》
《用於深度問答的自適應文檔檢索》
作者: Bernhard Kratzwald,Stefan Feuerriegel
我覺得這項研究很有意思,因為它和我們在 Bloomsbury AI 內部做過的實驗很像。他們的發現也和我們的很像,但不完全一樣。通常來說問答系統都會包含一個信息檢索(information retrieval)步驟,收集相關的文檔,然後有一個閱讀步驟從候選的文檔中提取回答。這篇論文的作者們研究了能否為文檔檢索設定一個自適應的數目,這個數目的選擇取決於語料庫大小以及問題的類型。他們的研究動機來自於,他們的實驗表明,隨著語料庫大小增大,首位答案的召回率會變得不穩定,而且需要用到比較多的文檔;但是對於小的語料庫,比較多的文檔反倒會導致準確率下降,因為模型被許多可疑的答案干擾了。在 Bloomsbury AI 的時候我們就發現,在找包含回答的那個自然段的時候,我們的文本閱讀器的表現總是比信息檢索的表現要好,這個答案干擾對於我們不是什麼問題。
EMNLP Session 3
《Generating Syntactic Paraphrases》
《句法釋義的生成》
作者:Emilie Colin,Claire Gardent
兩名作者研究了句法釋義的產生。研究工作表明在句法約束條件下的句法生成將帶有獨特的句法釋義,而這些句法能夠從數據、文本或兩者的組合中生成。該任務被視為基於輸入與句法約束為條件的結構化預測。同樣的輸入可以映射到多個輸出,且保證每個輸出可以滿足不同的句法約束。它們一共有 4 項任務:
輸入 RDF 三元組並生成文本。
輸入一個句子和一個約束,並生成文本。
輸入文本與 RDF 三元組,並生成含有 RFD 三元組的文本。
輸入文本與 RDF 三元組,並生成刪去 RDF 三元組的文本。
結果顯示,模型在所有的任務上表現良好,且語法約束極大地提升了 BLEU 得分。
EMNLP Session 4
我參加了主題為視覺問答(VQA)的第 4 個 session,可惜我不是很懂這個。會議將 RecipeQA 歸納到多模態 QA 里,這讓我覺得很有意思,不過這個成果截止目前還沒有得到充分的研究。
《RecipeQA: A Challenge Dataset for Multimodal Comprehension of Cooking Recipes.》
《RecipeQA:多模態理解食譜的挑戰數據集》
作者:semh Yagcioglu,Aykut Erdem,Erkut Erdem,Nazli Ikizler-Cinbis
作者留意到了當今業界需要更多 QA 挑戰數據集的趨勢。他們藉助食譜網站上的資料構建了多模式程序化 RecipeQA 數據集。裡頭的烹飪步驟分別附上了配圖,因此可視作多模式問答數據集。數據集只有中等大小(36K 個問-答對),大部分問題的形式是有多種選擇的完形填空。數據集中同時包含了視覺 QA 和文本 QA。跟 ProPara(一個類似的實體狀態跟蹤數據集)的對比讓我們發現了一些很有趣的事情。那就是這個數據集包含更多的實例,然而每個文檔上的標籤卻要少得多。
EMNLP Session 5
我們通過 poster 在這個環節向公眾展示我們的 ShARC 工作成果。儘管開展的時間有點早(尤其是經過前一天特別有意思的行業招待活動後!),以及 Poster 的位置不太理想,然而我們還是得到了了前來參觀的人們的積極反饋。我們希望能有更多人參與到我們的任務中來,很快我會在博客中更新一篇介紹 ShARC 數據集與解決任務的文章!
EMNLP Session 6
《emrQA: A Large Corpus for Question Answering on Electronic Medical Records》
《emrQA:電子病歷問答的大型語料庫》
作者: Anusri Pampari,Preethi Raghavan,Jennifer Liang , Jian Peng
作者利用來自 i2b2 數據集的專家臨床記錄注釋。他們使用了半自動的數據集創建方法,從而得以根據電子化的醫療檔案創建包含了 40 萬個問題-證據對的大規模醫療 QA 數據集。他們追加發布了 100 萬個提問-邏輯形式對。此外,還增加一些在 SQuad 等流行機器理解數據集中不存在的任務。這些任務更加註重計算與時間順序推理,這對於醫學問題的回答來說至關重要。他們是按以下的方式去構建數據集:
先收集相關領域的問題,然後將問題形成模板。
將模板與經過專家注釋的邏輯形式進行關聯。
使用現有的數據注釋集來批量生成問題和邏輯形式模版,進而獲取答案。
目前可供他們使用的問題模板只有 680 個,尚不足以用來大範圍生成自然語言問題。
《HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering.》
《HotpotQA:用於多樣化、具有可解釋性的多跳問答的數據集》
作者: Yang Zhilin Yang,Peng Qi,Saizheng Zhang,Yoshua Bengio,William Cohen,Ruslan Salakhutdinov,Christopher D. Manning
HotPotQA 是一套全新的 QA 數據集,試圖涵蓋許多種不同的現象,其中包括:多跳閱讀、基於文本的推理、不同領域、可解釋性以及比較問題。HotPotQA 巧妙的地方在於,數據集中標註出了哪些句子包含了回答問題所需要的事實,因此也要求模型不僅僅要回答問題,還要能用「引用」用於回答問題的論述。這些論述可以作為模型訓練階段的監督。它們將多跳問題分為兩大類:
類型 1:通過推斷完成第二步任務
類型 2:通過檢查多個限定內容來獲取答案
所謂的比較問題也很新(但這個歸納總覺得還是有些武斷了,但它們的「多跳」屬性是確定的,因為模型必須回答關於被比較的事物最終與答案進行比較的問題)。
模型表明輔助論述在訓練過程中起到了重要作用,然而他們的 BiDAF ++ 基線的表現與人類相比還是有點差了。
《Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering.》
《盔甲能夠進行導電嗎?一套全新的 Open Book 問答數據集》
作者:Todor Mihaylov,Peter Clark,Tushar Khot,Ashish Sabharwal
又有一套小規模的 AI2 挑戰數據集要介紹給大家——OpenBook 數據集。數據集的主要任務是利用部分上下文進行多跳推理。它提供了論述(以開放查詢的形式)和一個問題,這個問題是一個需要運用論述和常識知識才能正確回答的多項選擇問題。該任務介於閱讀理解和開放式 QA 之間。數據集的體量非常小(5900 個問題 對應 1,326 條論述的開放查詢),因此需要進行一些遷移學習。和 Swag 一樣,他們在構建數據集時會測試現有的系統是否表現不佳,來使數據集變得更具有挑戰性。這雖然在理論上聽起來很棒,但我懷疑它是否會引入難以被檢測到的偏差因素。
《Evaluating Theory of Mind in Question Answering》
《評價問答中的心智理論》
作者:Aida Nematzadeh,Kaylee Burns,Erin Grant,Alison Gopnik,Tom Griffiths
本文中的研究表明了一個有趣的變化。好的問答需要進行推理,而不僅依賴信息的查找。作者想知道模型是否使用了正確的信息來回答問題?亦或純粹在作弊。BABI 任務不會檢測關於信念的推理。因此,作者設計了一套用於評估模型對於信念推理能力的任務,該任務被稱作「Sally Anne Tasks」。任務描述了一個相當簡單的情境,這裡頭 Sally 和 Anne 將與物體產生互動,但有些時候她們並不知道彼此之間當下的狀態。我舉個例子:
Sally 把球放到盒子里,
Sally 離開了房間,
Anne 把球從盒子里取出並放入袋裡。
然後 Sally 重新回到了房間。
當模型被問到「莎莉要上哪去找球呢?」,正確的答案需要模型理解 Sally 始終相信球放在她一開始置放的位置,也就是盒子,而不是袋子。
他們測試了幾種不同的信念任務:
一階真實信念:例如 Sally 觀察到了一個物體運動之後對它的信念
第一順序錯誤信念:例如 Sally 未觀察到一個物體運動時對它的信念
第二個錯誤的信念:例如 Anne 對於 Sally 信念的想法
他們使用了 memn2n、一個多觀察者模型(具有 sally、anne 與觀察者的獨立記憶)、Entnet 以及關係網路(relnet)。最終結果顯示一階信念對於模型來說更難理解,對人類(成人)來說就不難理解,具備外顯記憶的模型基本上會在信念問題上出現失誤,而 Entnet 和 relnet 則是在記憶問題上出現失誤。看來具有遞歸性質的模型是構建高階信念模型的必備。
EMNLP Session 7
我去參觀了一些小型 posters。有幾個讓我覺得非常有意思,在這裡推薦其中的三個:
《Generating Natural Language Adversarial Examples.》
《生成自然語言的對抗性樣本》
作者:Moustafa Alzantot,Yash Sharma,Ahmed Elgohary,Bo-Jhang Ho,Mani Srivastava,Kai-Wei Chang
《Loss in Translation: Learning Bilingual Word Mapping with a Retrieval Criterion.》
《在翻譯中迷失:通過回溯條件學習雙語單詞映射》
作者:Armand Joulin,Piotr Bojanowski,Tomas Mikolov,HervéJégou,Edouard Grave
《Bayesian Compression for Natural Language Processing.》
《用於自然語言處理的貝葉斯壓縮》
作者: Nadezhda Chirkova,Ekaterina Lobacheva,Dmitry Vetrov
Keynote II:《Understanding the News that Moves Markets》
新聞報道如何推動市場前進
主講人是 Gideon Mann(Bloomberg,L.P。)
這是一場很有意思的演講,提醒了我們為何有責任創建一個強大 NLP 系統,並且在社會上一些至關重要的系統里進行採用。然而我們應該如何建立合適的檢查與平衡機制,以確保 nlp 系統中的缺陷不會引發巨大的社會動蕩?說真的,市場對於財經新聞的極速反應讓人既感到敬畏又恐懼。
EMNLP Session 8
生成領域會議:這是一個非常高質量的 session。雖然我對該領域了解的不算多,但會議里有很多具有啟發性的工作,有一些我已經想好了如何在工作中應用。
《Integrating Transformer and Paraphrase Rules for Sentence Simplification.》
《集成 Transformer 和釋義規則用於句子簡化》
作者:Sanqiang Zhao,Rui Meng,Daqing He,Andi Saptono,Bambang Parmanto
本文任務試圖在保留原始含義的情況下對語言進行簡化,以便於兒童或非母語人士理解。他們使用了 Transformer 模型和簡單的 PPDB KB 中的集成規則來增強簡化效果,並選擇更加精確的簡化規則。
模型整合規則的方式是引入一個新的損失,它會讓使用簡單的規則的可能性最大化,另外也會讓一個序列生成損失變小。另外,他們還利用了一個記憶簡化規則的框架來強化模型。
《Learning Neural Templates for Text Generation.》
《學習神經模版用於文本生成》
作者:Sam Wiseman,Stuart Shieber,Alexander Rush
這項工作涉及到利用條件神經半隱馬爾可夫模型進行文本生成的學習模板。他們(正確地)認為,通過自然語言模板生成的文本比直接神經序列生成的文本更具備可解釋性和可控性。他們使用 wikiBio 數據集進行文本生成,其中 wikidata 信息框通常用於對信息框的自然語言描述上。這是一個很酷的原創工作,使用了各種舊時熱門動態編程演算法構建的應用程序。
《Multi-Reference Training with Pseudo-References for Neural Translation and Text Generation.》
《用於神經翻譯和文本生成的偽參考多參考訓練》
作者:Renjie Zheng, Mingbo Ma,Liang Huang
本文的工作重點在於儘可能為翻譯與生成任務生成更多的參考資料,基本上與釋義生成任務沒什麼不同。文中陳述了一個(通常避而不談的、讓人難以啟齒的)明顯的事實,即存在指數級的有效的、保留了原語義的示意/參考轉換句子。他們提出可以用點陣構建方法生成更多這樣的句子。他們首先展示了如何通過「硬性對齊」來進行點陣構建,1,通過合併相同的單詞壓縮現有的參考(也許是遞歸式地?),2,遍歷這個點陣,為所有從節點出發一直到點陣結尾的所有可能路線創建一個偽參考。
最後,他們通過語言模型中的語義相似性來擴展「硬性對齊」,以便該「對齊」同樣可以用於同義詞。該方法的缺點是產生的句子結構與原出處的差異不是很大。
EMNLP Session 9
這裡我穿插參與了幾項不同的會議議程以及海報環節。
《Noise Contrastive Estimation and Negative Sampling for Conditional Models: Consistency and Statistical Efficiency.》
《用於雜訊對比估計與負抽樣的條件模型:一致性和統計效率》
作者: Zhuang Ma, Michael Collins
這個(主要是理論上的)工作主要著眼於雜訊對比估計排序、分類損失以及和 MLE 的一致性。作者發現基於排序的損失相比分類損失,在更多任務上更加具有一致性(僅在假設分區函數保持不變的情況下具有一致性),不過兩者都會隨著 K 值的增加而更加接近 MSE。
《Pathologies of Neural Models Make Interpretations Difficult》
《神經模型的病理學使解釋變得困難》
作者:Shi Feng, Eric Wallace, Alvin Grissom II, Mohit Iyyer, Pedro Rodriguez, Jordan Boyd-Graber
這項工作試圖探究一旦閱讀理解問題因為丟失單詞而「縮短」之後會發生什麼。他們展示了一些例子,表明即使他們將問題簡化為單個詞仍然可以保持相同的答案。這個方法與一般常用的創建「對抗者」(不斷對輸入增加擾動,直到輸出發生變化)的方法正好相反。他們在判別答案時會刪除了一個在他們看來「最不重要」的詞。他們認為,隨著輸入變得不明確,輸出的置信度應該隨之降低,並且概率分布也會更鬆散。他們舉了一些例子:
SQUAD:「特斯拉把錢花在什麼地方?」>「錢」(0.78 - > 0.91)
VQA:「這朵花是什麼顏色」>「花」(0.83 - > 0.82)
他們最終提出了一種解決問題的方法,即是通過生成無用的樣本,然後訓練模型遇到縮短的問題時把輸出的熵最大化。
《Adversarial Deep Averaging Networks for Cross-Lingual Sentiment Classification.》
《用於跨語言情感分類的對抗性深度平均網路》
作者:Xilun Chen,Yu Sun,Ben Athiwaratkun,Claire Cardie,Kilian Weinberg
沒有別的語言比英語有更多的情緒數據。本文試圖通過利用資源豐富的語言來處理其他語言中的情感任務,作者試圖僅使用單語數據來學習語言的固定特徵。他們在嵌入語言中使用了雙語/多語言詞嵌入和語言鑒別器網路。
EMNLP Session 10
這段時間裡我都在問題回答的分會場。
《Joint Multitask Learning for Community Question Answering Using Task-Specific Embeddings.》
使用任務特定嵌入進行社區問答的聯合多任務學習
作者: Shafiq Joty,LluísMàrquez,Preslav Nakov
作者試圖利用圖形模型(很高興能在 QA 中看到這個)融合社區問答的三個任務來處理社區問答所面臨的問題。在社區問答中他們定義的三個任務分別是:
找到與新問題類似的問題
找到與新問題相關的答案
確認一個帖子中某個問題的回答是否是一個好的答案
由於三個任務之間互相能夠受益,因此作者使用符合聯合規範的 CRF 將三者進行建模,並使用 rmsprop 進行訓練,最後再通過 LoopyBP 進行推理演算。
《What Makes Reading Comprehension Questions Easier?》
《是什麼使得閱讀理解問題變得容易?》
作者: Saku Sugawara,Kentaro Inui,Satoshi Sekine,Akiko Aizawa
本文與我在 EMNLP 期間看到其他一些工作中反覆提到的趨勢有關,其中包括有點相關但讀起來卻不是很有趣的最佳短篇論文獎。作者試圖評估不同 QA 數據集的難度。本文定義了一些啟發式方法來回答問題,並斷言如果能夠通過簡單的啟發式方法來回答問題,就說明這個問題很簡單。
在一些數據集中,尋找與問題最相似的句子是一個行之有效的回答問題的方法。Triviaqa、race、mctest、arc-e 和 arc-c 都是公認的非常具有挑戰性的數據集,而其中 Qangaroo 則被發現有富有變化性,即是簡單的問題會非常簡單,而困難的問題則會非常困難。作者也充分思考了到底是這些問題回答起來有難度,還是這些問題就無法回答。
總的來說,TriviaQA、Quangaroo 和 ARC 被發現擁有相當多「無法解決」的問題。
EMNLP Session 11
《The Importance of Being Recurrent for Modeling Hierarchical Structure》
《探究對層次化的結構建模時,循環結構的重要性》
作者:Ke Tran,Arianna Bisazza,Christof Monz
作者們專門探究了 LSTM 和 Tranformer 模型在那些對層次化結構有專門要求的任務中的建模表現。他們觀察了模型生成的語言中賓語-動詞一致性以及邏輯推理的表現。他們得到了一個有意思的結論,和大多數人的直覺以及研究社區里大家積極投入的方向相反,他們發現基於 LSTM 的模型總是能以一個很小的、但是足以察覺到的差別勝過 Tranformer 模型。可別忘了,Tranformer 模型是能有力地發現句子中不同的詞之間的相互聯繫的。這個結果很難給出合理的解釋,但是理應得到更多的研究,以及嘗試復現他們的結果。
最佳論文獎
《How Much Reading Does Reading Comprehension Require? A Critical Investigation of Popular Benchmarks》
《閱讀理解需要閱讀多少文本?對熱門 benchmark 的重點調查》
作者:Divyansh Kaushik,Zachary C. Lipton
這篇論文研究的課題很熱門、很簡單、也很自洽。作者們僅僅用問答的上下文或者問題來訓練模型,有意識地不讓模型獲得理論上解決任務所必須的信息。今年 EMNLP 中還有幾篇論文也思考了類似的問題,作者們正確地引用了前幾年中的自然語言推理方面的類似的研究成果,以及其它相關設置的論文,很棒。
《Linguistically-Informed Self-Attention for Semantic Role Labeling》
《用於語義角色標註的考慮語言學信息的自我注意力方法》
作者:Emma Strubell, Patrick Verga, Daniel Andor,David Weiss,Andrew McCallum
這是一項很棒的研究,他們的演講也非常棒。作者們首先指出,對於互聯網規模的自然語言處理應用部署,快速、準確、魯棒是非常關鍵的特性。作者們研究了語義角色標註問題,他們通過增加針對語言現象的多任務學習技術,在領域內和領域外都取得了明顯的進步。他們通過引入一種新形式的自我注意力機制,「關注句法的自我注意力」(syntactically informed self attention),對 Tranformer 模型架構進行了增強。其中的一個注意力計算點會用來參與到單詞的句法計算點中。除此之外,他們用了 Tranformer 模型的不同層來計算其它各種語法內容,比如姿態標註、論述檢測、語義角色擴張以及標籤
《Phrase-Based & Neural Unsupervised Machine Translation》
《基於詞語的、無監督的神經網路機器翻譯》
作者:Guillaume Lample, Myle Ott,Alexis Conneau, Ludovic Denoyer,Marc Aurelio Ranzato
在這個壓軸演講中,Guillaume 講解了這項(現在已經名聲遠揚的)無監督機器翻譯研究。這個過程可以被總結成三個步驟:
初始化:兩個語言分布可以通過無監督地學習片語到片語、或者詞到詞的翻譯進行粗略的對齊
語言建模:在每個語言中分別獨立地學習一個語言模型,它可以用來為句子降噪
反向翻譯:從一個已有的源句子開始,把這個句子通過現有模型翻譯成目標語言,然後通過源語言到目標語言的翻譯對這個句子進行重構。其中的差異就可以用來訓練目標語言到源語言的翻譯模型。
他們也展示了用他們的框架做風格轉換的研究的預覽,真的超級棒。
哇,終於寫完了。好大一摞論文啊。
(下篇完)
這是「頂會見聞系列」之 EMNLP 2018 的下篇,大家可移步《「頂會見聞系列」之 EMNLP 2018 詳細參會見聞(上篇)》閱讀前面的精彩內容。
via:https://www.patricklewis.io/post/emnlp2018/,雷鋒網 AI 科技評論編譯


※Mac App Store 審核漏洞大,安全應用居然偷起了用戶瀏覽器歷史
※曠視科技聯合IDC發布AI+手機行業白皮書 人工智慧引領手機「視」界革命
TAG:雷鋒網 |