當前位置:
首頁 > 新聞 > 萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

雷鋒網 AI 科技評論按:本文作者徐阿衡,原文載於其個人主頁,雷鋒網 AI 科技評論獲其授權發布。

8月16日,在北京中科院軟體研究所舉辦的「自然語言處理前沿技術研討會暨EMNLP2017論文報告會」上,邀請了國內部分被 EMNLP 2017錄用論文的作者來報告研究成果。整場報告會分為文本摘要及情感分析、機器翻譯、信息抽取及自動問答、文本分析及表示學習四個部分。感覺上次的 CCF-GAIR 參會筆記寫的像流水賬,這次換一種方式做筆記。

本文分為四個部分,並沒有包含分享的所有論文。第一部分寫我最喜歡的論文,第二部分總結一些以模型融合為主要方法的論文,第三部分總結一些對模型組件進行微調的論文,第四部分是類似舊瓶裝新酒的 idea。

I like

Multimodal Summarization for Asynchronous Collection of Text, Image, Audio and Video

非同步的文本、圖像、音視頻多模態摘要,一般的文本摘要關注的是 salience, non-redundancy,這裡關注的是 readability, visual information,visual information 這裡說的就是圖片信息,暗示事件的 highlights。考慮一個視頻新聞,本身有視覺模態和音頻模態,通過 ASR,還可以產生文本模態,問題是如何將這些模態連接起來,產生一個附帶精彩圖片的文本摘要呢? 這篇論文就在討論這個問題,整個模型輸入是一個主題的文本以及視頻,輸出是一段附圖片的文本摘要。

1、預處理:

視頻產生圖片:CV 基本思路,把 Video 切成一個個的 shots(鏡頭/段落),每個鏡頭可以 group(組合) 成一個 story(scene),每一個鏡頭還可以細分成 sub-shots,每個 sub-shot 可以用 key-frame 來表示,選擇關鍵幀作為視覺信息,同時認為長鏡頭的圖片相對於短鏡頭更重要,基於此對圖片重要性進行打分。音頻產生文字:ASR。一方面語音識別結果並不十分準確,另一方面音頻模態會有一些音頻信號可以暗示我們哪些內容是重要的,基於這兩點會產生兩個指導策略,稍後提到。

2、文本重要性打分:

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

LexRank,句子是點,連線是重要性,進行隨機遊走,針對音頻產生文字的兩個特性使用兩個指導策略:

  • 如果語音識別結果和文本句子語義相同,那麼讓語音識別結果來推薦文本,反之不然;

  • 如果語音信號比較明顯,語音推薦文本,反之不然;

這兩條指導策略會提升文本可讀性。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

3、圖文匹配問題:

希望摘要能覆蓋視覺信息,能解釋圖片,所以需要做一個文本圖片分類器。圖像 vcr 解碼接兩層前向網路,文本做一個高斯分布再求 fisher rank,也是接兩層前向網路,最終將兩個文本映射到同一個語義空間,計算匹配度。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

一個問題是如何在複雜的句子里提出子句,作者提出了基於傳統語義角色標註的方法,利用中心謂詞提取匹配的 frame 信息(predicate, argument1, argument2),好處是可以抽取語義相對獨立的部分,還可以通過 frame 的設定(只取施、受、謂詞)過濾如時間等圖片很難反映的信息。

4、目標函數:

提到了三個目標函數:

  • 針對文本:對文本重要性獎勵、冗餘性懲罰

  • 針對視覺:圖片重要性(鏡頭時長),是否被文本摘要覆蓋(是否有匹配)

  • 平衡視覺信息和文本信息

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

下面一篇 Affinity-Preserving Random Walk for Multi-Document Summarization 多文檔摘要也用到了圖排序模型,這裡略過。

Reasoning with Heterogeneous Knowledge for Commonsense Machine Comprehension

聚焦兩個問題:如何去獲取並且表示常識知識?並且如何應用獲取到的常識知識進行推理? 論文嘗試從多個不同來源的異構知識庫當中獲取了相關的信息,並將這些知識統一表示成了帶有推理代價的推理規則的形式,採用一個基於注意力機制的多知識推理模型,綜合考慮上述所有的知識完成推理任務。

任務類型: 在 RocStories 數據集上,在給定一個故事的前 4 句話的情況下,要求系統從兩個候選句子當中選出一個作為故事的結尾。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

推理規則:統一將知識表示成如下的推理規則的形式,在關係 f 下,元素 Y 可以由元素 X 推出,其推理代價是 s。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

知識獲取

主要從不同來源獲取三類知識,包括:

  • 事件序列知識(Event Narrative Knowledge)

    捕捉事件之間的時間、因果關係(去了餐館 -> 要點餐)

    採用兩個模型來捕捉這個信息,一種是基於有序的 PMI 模型,另外一個基於Skip-Gram的向量化表示模型,本質都是基於事件對在文本當中的有序共現的頻繁程度來計算推理規則的代價的。

  • 實體的語義知識(Entity semantic knowledge)

    捕捉實體之間的語義關係。

    以星巴克為例,捕捉的第一種關係是實體間的共指關係(coreference),比如說用「咖啡屋」來指代星巴克。從 Wordnet 來獲取實體間上下位關係的知識。cost 是 1 當且僅當 X 和 Y 是同義詞或者有上下位關係

    第二種關係是相關關係(associative),比如說出現星巴克時可能會出現「拿鐵咖啡」這一類與之相關的實體。通過 Wikipedia 中實體頁面的鏈接關係來得到實體間的相關關係知識,Cost 是兩個實體間的距離(Milne and Witten(2008).)

  • 情感的一致性知識(Sentiment coherent knowledge)

    捕捉元素間的情感關係

    故事的結尾和故事的整體的情感應該基本上保持一致,否則結尾就會顯得太突兀,那麼這樣的結尾就不是一個好的結尾。從 SentiWordnet 上來獲得這種不同元素之間的情感一致性的知識。cost 為 1 if both subjective and have opposite sentimental polarity; 為 -1 if both subjective and have same sentimental polarity; 否則為 0

上述推理規則代價的計算方式不同,論文使用了一種類似於 Metric Learning的方式,通過在每個類別的推理規則上增加了一個非線性層來自動學習對不同類別的推理規則代價的校準。

另外,由於否定的存在會反轉事件關係以及情感關係的推理結果,論文對否定進行了特殊處理。

知識推理

如何將規則用到閱讀理解之中?換句話說,就是在給定一個文檔和候選答案的基礎上,如何衡量候選答案是否正確?首先將文檔以及候選答案都劃分為元素,整個推理的過程就被轉化成了一個推理規則選擇以及對這個推理的合理性進行評估的過程。

重要假設:一組有效的推理應當要能夠覆蓋住結尾當中的所有元素。換言之,結尾當中出現的每一個元素,都應當能夠在原文當中找到它出現的依據。

對於同樣的一個文檔和候選答案,我們可以有多種多樣不同的推理。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

上面一個推理就是一組有效的推理,這組推理是很符合人的認知的。因為我們通常會通過 Mary 和 She 之間的實體共指關係、Restaurant 和 order 之間的序列關係以及 restaurant 和 food 之間的相關關係來判斷這個結果是不是成立的。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

這個就不怎麼合理,因為我們不太會去考慮一個人和一個事件之間是不是有時序關係,以及考慮 walk to 這樣一個動作和 food 之間的聯繫。

採用每一種推理的可能性是不同的,用 P(R|D,H)P(R|D,H) 來對這種推理的選擇建模,基於元素獨立性假設,得到下面的式子

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

是否選擇一條推理規則參與推理一個假設元素 hihi,取決於對於原文當中推理得到 hihi 的元素 djdj 的選擇,以及對於 djdj 到 hihi 之間推理關係的選擇。然後將這個概率分布重新定義了一個重要性函數,與三個因子相關:

  • s(h,d)文檔中的元素與候選答案中元素的語義匹配程度

  • a(h,f) 以及 a(d,f)一個元素與這條推理規則的關係的一個關聯程度,使用一個注意力函數來建模這種關聯程度

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

將原文到候選的推理代價定義成其所有有效的推理的期望代價

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

使用一個 softmax 函數來歸一化所有候選的代價值,並且使用最大後驗概率估計來估計模型當中的參數。

實驗

三個 Baseline 進行了比較:

  • Narrative Event Chain (Chambers and Jurafsky, 2008)僅僅考慮是事件與事件之間的關聯信息

  • DSSM (Huang et al., 2013)將文檔和候選答案各自表示成了一個語義向量,並且計算它們之間的語義距離

  • LSTM 模型 (Pichotta and Mooney, 2015)通過對先前的事件進行序列建模來預測後面發生事件的概率。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

不同知識的影響

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

每一種知識都能夠起到作用,移除任何一種知識都會導致系統的performance顯著地降低。

推理規則選擇方式加入 attention 機制的影響

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

其他

一是推理規則怎樣產生更多更複雜的推理?二是訓練數據,一方面,常識閱讀理解數據還是很缺乏,可能需要半監督或遠程監督的方法來拓展訓練數據;另一方面,可能需要擴展更多的數據源。

Neural Response Generation via GAN with an Approximate Embedding Layer

生成式聊天系統可以看作是一個特殊的翻譯過程,一個 question-answer pair 等價於 SMT 需要處理的一條平行語料,而 SMT 的訓練過程實際上也就等價於構建問題和答案當中詞語的語義關聯過程。NMT 作為 SMT 高級版可以用來實現聊天回復的自動生成。這種新的自動聊天模型架構命名為 Neural Response Generation(NRG)。

而現在 NRG 存在問題是生成的答案嚴重趨同,不具有實際價值,如對於任何的用戶 query,生成的結果都有可能是「我也覺得」或「我也是這麼認為的」,這種生成結果被稱為 safe response。safe response 產生原因如下:

  • The data distribution of chat corpus

  • The fundamental nature of statistical models

聊天數據中詞語在句子不同位置的概率分布具有非常明顯的長尾特性,尤其在句子開頭,相當大比例的聊天回復是以「我」「也」作為開頭的句子,詞語概率分布上的模式會優先被 decoder 的語言模型學到,並在生成過程中嚴重抑制 query 與 response 之間詞語關聯模式的作用,也就是說,即便有了 query 的語義向量作為條件,decoder 仍然會挑選概率最大的「我」作為 response 的第一個詞語,又由於語言模型的特性,接下來的詞語將極有可能是「也」……以此類推,一個 safe response 由此產生。

常見的解決方案包括:通過引入 attention mechanism 強化 query 中重點的語義信息;削弱 decoder 中語言模型的影響;引入 user modeling 或者外部知識等信息也能夠增強生成回復的多樣性。這些其實是對於模型或者數據的局部感知,如果從更加全局的角度考慮 safe response 的問題,就會發現產生 safe response 的 S2S 模型實際上是陷入了一個局部的最優解,而我們需要的是給模型施加一個干擾,使其跳出局部解,進入更加優化的狀態,那麼最簡單的正向干擾是,告知模型它生成的 safe response 是很差的結果,儘管生成這樣的結果的 loss 是較小的。這樣就開啟了生成式對抗網路(Generative Adversarial Networks, GAN)在生成式聊天問題中的曲折探索。

將 GAN 引入聊天回復生成的思路:使用 encoder-decoder 架構搭建一個回復生成器G,負責生成指定 query 的一個 response,同時搭建一個判別器 D 負責判斷生成的結果與真正的 response 尚存多大的差距,並根據判別器的輸出調整生成器 G,使其跳出產生 safe response 的局部最優局面。

一個重要的問題是如何實現判別器 D 訓練誤差向生成器 G 的反向傳播(Backpropagation)。對於文本的生成來說,一個文本樣本的生成必然伴隨 G 在輸出層對詞語的採樣過程,無論這種採樣所遵循的原則是選取最大概率的 greedy思想還是 beam searching,它實際上都引入了離散的操作,這種不可導的過程就像道路上突然出現的斷崖,阻擋了反向傳播的腳步,使對於 G 的對抗訓練無法進行下去。這篇論文就針對文本生成過程中的採樣操作帶來的誤差無法傳導的實際問題提出了解決方案。

論文為生成器 G 構建了一個 Approximate Embedding Layer(AEL 如圖中紅色矩形框中所示,其細節在圖右側部分給出),這一層的作用是近似的表達每次採樣過程,在每一個 generation step 中不再試圖得到具體的詞,而是基於詞語的概率分布算出一個採樣向量。這個操作的具體過程是,在每一個 generation step 里,GRU 輸出的隱狀態 hihi 在加入一個隨機擾動 zizi 之後,經過全連接層和 softmax 之後得到整個詞表中每個詞語的概率分布,我們將這個概率分布作為權重對詞表中所有詞語的 embedding 進行加權求和,從而得到一個當前採樣的詞語的近似向量表示(如圖中右側綠框所示),並令其作為下一個 generation step 的輸入。同時,此近似向量同樣可以用來拼接組成 fake response 的表示用於 D 的訓練。不難看出,這種對於採樣結果的近似表示操作是連續可導的,並且引入這種近似表示並不改變模型 G 的訓練目標。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

取得了不錯的效果。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

詳細戳首發!三角獸被 EMNLP 錄取論文精華導讀:基於對抗學習的生成式對話模型淺說

模型融合

把傳統模型和神經網路相結合。

Translating Phrases in Neural Machine Translation

目前的 NMT 里 decoder 一次生成一個單詞,不能進行 one-many 以及 many-many 的翻譯,也就是沒法做目標語言 phrase 的翻譯,而 SMT 能做,所以想法是把兩者結合。結合方法一般來說有兩種,一是 shallow,NMT 作為 feature 放到傳統框架進行預調;二是 deep,SMT 給 NMT 做推薦,NMT 用神經網路的方式接收 SMT 的東西。這篇論文用的是第二種方式。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

SMT 先翻譯一遍,把 relevant target phrases 扔到 NMT 的 Phrase Memory 里,NMT 從 Phrase Memory 里讀取 target phrases 並進行打分,然後系統同時看 target phrase 和 word predictor 的結果,用一個 balancer 將 SMT 和 NMT 的優勢結合起來,來判斷下一個是單詞還是短語的概率,來決定選哪個。所以其實產生的翻譯 y=y1,y2,…,yTuy=y1,y2,…,yTu其實有兩個碎片(fragments)組成,NMT 的 word predictor w=w1,w2,…,wKw=w1,w2,…,wK 以及 phrase memory 里存的相關短語 p=p1,p2,…pLp=p1,p2,…pL (這裡的relevant target phrases 要滿足兩個條件:與原文相關(adequacy);不重複翻譯(coverage))

另外一點是作者還提出了基於 chunk 的翻譯,SMT 對 source 提取 Chunk 信息,把布希總統、美國政府這些作為 chunk 讓 SMT 預翻,然後把它們寫到 phrase memory 里,後續步驟不變。chunk 的實現主要是由 sequence tagging 完成,相同 tag 表示同一個 chunk,開始符號另外標記,比如 「information security」 被標註成 「NP _B NP」,然後新的輸入就變成原來的 word embedding 以及 chunking tag embedding。chunk 的好處在於限定了 source-side phrase 的信息,一方面減少了短語間的 overlap,另一方面提高了 decoding 的準確性。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

機器翻譯相關戳

NLP 筆記 - Machine Translation

NLP 筆記 - Neural Machine Translation

問題是 SMT 沒那麼強(很難保證準確率),NMT 也沒那麼弱(一個單詞一個單詞的翻譯也能把正確的短語翻譯出來)

Incorporating Relation Paths in Neural Relation Extraction

提出了對文本中的關係路徑進行建模,結合 CNN 模型 (Zeng, et al. (2014). Relation classification via convolutional deep neural network. CGLING) 完成關係抽取任務。

傳統基於 CNN 的方法,通過 CNN 自動將原始文本映射到特徵空間中,以此為依據判斷句子所表達的關係

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

這種 CNN 模型存在的問題是難以理解多句話文本上的語義信息。比如說 A is the father of B. B is the father of C. 就沒法得出 A 和 C 的關係,基於此,論文提出了在神經網路的基礎上引入關係路徑編碼器的方法,其實就是原來的 word embedding 輸入加上一層 position embedding,position embedding 將當前詞與 head entity/tail entity 的相對路徑分別用兩個 vector 表示。然後用 αα 來平衡 text encoder(E) 和 path encoder(G)。

L(h,r,t)=E(h,r,t|S)+αG(h,r,t|P)

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

Encoder 還採用了多樣例學習機制(Multi-instances Learning),用一個句子集合聯合預測關係,句子集合的選擇方法有隨機方法(rand),最大化方法(max, 選最具代表性的),選擇-注意力機制(att),注意力機制的效果最好。

實驗結果:

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

之後可以繼續的兩個改進方向,一是對多步關係路徑進行建模,使得模型可以處理更複雜的語義情況,而是將文本中的關係路徑和知識圖譜中的關係路徑有機地結合,更好地完成關係抽取和知識圖譜補全的任務。

零件調整

對已有模型零部件的一些調整改造。

Towards a Universal Sentiment Classifier in Multiple languages

這裡我覺得有意思的一點是作者模仿了 skip-gram 模型提出了一種同時訓練多語言的 embedding 的方法。一句話解釋就是通過中心詞來預測自身/其他語言周圍的前後詞。比如說雙語預料中,需要使中文能預測中文自身的周圍詞,英文能學習英文自身的周圍詞,還要通過對齊來學習中文來預測英文、英文來預測中文。skip-gram 相關戳 詞向量總結筆記(簡潔版)。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

C 作為 source language S 和 target language T 之間的平行語料,語料庫可以分為 CSCS 和 CTCT 兩部分,目標函數如下

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

然後就用一個 LR 模型進行情感分類。

Neural Machine Translation with Word Predictions

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

我們知道在 NMT 中,訓練成本主要來自於輸出層在整個 target vocabulary 上的 softmax 計算,為了減小這種 cost,各位學者做出了各種努力,比如說 Devlin et al. (2014) 從計算角度提出了 self-normalization 技術,通過改造目標函數把計算整個 matrix 的步驟優化為只計算輸出層每一行的值(NLP 筆記 - Neural Machine Translation),而在 Neural Machine Translation with Word Predictions 這篇論文中,作者提出了一種減小 target vocabulary 的方法,主要用到了詞預測機制(word predictor)。

之前 MT 的目標是生成一個詞序列(ordered sequence),而現在 word predictor 的目標是生成 y1..yn 的詞,但是不考慮詞序(no order)。

和上圖一樣的 idea,word prediction 中,initial state(WPEWPE)要包含 target sentence 里的所有信息,hidden state(WP_D)要包含沒有被翻譯的詞的所有信息。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

PWPE(y|x)=∏j=1|y|PWPE(yj|x)PWPE(y|x)=∏j=1|y|PWPE(yj|x)

PWPD(yj,yj+1,…,y|y||y

這樣無論是效果和效率上都有了顯著提升

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

這個方法很好的一點是目標中的詞對詞預測來說是天然的標註,構造簡單。然而要注意的兩個點是 預測要准&預測要快,否則就失去了意義。還有個問題是,按理來說較大詞表質量更好然而翻譯效率低,較小的詞表,像這篇論文提出的,翻譯某句話提前先預測生成一個新的小的詞表交給 decoder,效率毫無疑問會提升,但是質量,為啥會更好?不是很理解,坐等論文。

Towards Bidirectional Hierarchical Representations for Attention-based Neural Machine Translation

對傳統 tree-based encoder 的一個改進。傳統的 tree-based encoder 是 bottom-up 的結構,能抓局部信息卻捕捉不了全局信息

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

這篇論文對 tree-based encoder 做了改造,讓它既能捕捉局部的語義信息,又能捕捉全局的語義信息。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

bottom-up encoding 取得局部信息,top-down encoding 取得全局信息。對於 OOV(out-of-vocabulary) 問題,基於 sub-word 思想,這裡單獨建立一個二叉詞法樹並將其融入原來的句法樹里。這樣如下圖所示,模型囊括了句子、短語、詞、sub-word 各種全局/局部信息,表達力 max。然而同樣帶來的問題是會產生重複信息,進而可能會造成重複翻譯。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

為解決重複翻譯的問題,或者說詞/短語向量的 balance,這裡還引入了 attention 機制

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

效果有了一定提升。舉個例子說明 tree-based encoder 的優勢。用普通的 sequence encoder 翻譯 PP 時會產生錯誤,普通的 tree-based 能翻譯好 PP,不過 境外 和 以外的地區 還是有一點差距的,新版 tree-decoder 翻譯就無壓力。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

遷移 idea

其實就是用已有的但可能用在別的方面的模型/思路解決現在的問題。

A Question Answering Approach for Emotion Cause Extraction

這一部分之前木有研究過,先來看一下什麼是 emotion cause extraction


1 Document: 我的手機昨天丟了,我現在很難過。 (I lost my phone yesterday, and I feel sad now. )

2 Emotion:Sad

3 Emotional Expression: 很難過

4 Emotion Cause: 我的手機昨天丟了

任務目標是根據文本信息及其中包含的情感表達抽取出情感原因。論文作者之前發過論文,用的是基於 dependency parsing 的方法,把情感原因轉化為樹的分類任務,但結果依賴 dependency parsing 的準確性,而且只能處理對子句/句子級別的原因,不能處理細粒度的短語級別的原因。所以這一篇轉換了思路,把 emotion cause extraction 問題轉化為 question-answering 問題,提出了一種基於卷積的多層 memory network 方法,結果比之前基於樹的方法提升了 2 個點。


1 Emotional Text => Reading Text

2 Emotional Words => Question/Query

3 Emotion Cause Binary Classification Results => Answer

用傳統的 memory network 作為基礎模型,reading text 用詞向量 embedding 表達,存到記憶單元,待判斷的情感詞的詞向量作為注意力單元,將 query 和 text 每個詞進行內積操作,softmax 歸一化作為詞權重,用注意力的加權和作為整個句子的表達。為了引入詞語的上下文,用了類似卷積的注意力加權方法,每個詞的注意力由當前詞、前文詞、後文詞共同決定,加權過程中根據上下文注意力對不同位置的詞語進行加權,獲得以短語窗口為單位的加權結果,然後進行輸出。同時對記憶網路做了多層的堆疊,以學習更深的特徵。最後效果得到了提升,並且在短語級別的情感原因抽取上也取得了不錯的效果。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

問題來了,query 是怎麼產生的呢?=> 數據集標註好了情感表達詞!

Earth Mover』s Distance Minimization for Unsupervised Bilingual Lexicon Induction

主要研究無監督的雙語對齊方法,也就是能無監督地聯繫兩個詞向量空間,本質上是需要詞向量空間之間,或者說詞向量分布之間距離的度量。用的 EMD 思想,目標就是尋找一個映射G,使得映射後的源語言詞向量分布和目標語言詞向量分布的 EMD 或者說 Wasserstein 距離最小化。具體等論文發表再研究了。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

Chinese Zero Pronoun Resolution with Deep Memory Network

解決中文的零指代消解問題。主要思路,用上下文來表示 ZP,使用兩個 LSTM,一個對前文建模(left-to-right),一個對後文建模(right-to-left),然後連接兩邊最後一個隱層的向量作為 AZP 的表達(也可以嘗試平均/求和)

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

接著,給定一個 AZP,會有一個 NP 集合被抽出來作為 candidate antecedents,根據每個 candidate antecedents 的重要性產生一個額外的 memory,通過對之前 LSTM 產生的 hidden vectors 相減操作來對 candidate antecedents 進行編碼,然後連接上文、下文兩邊的向量,產生最後的 vector 作為最終 candidate antecedents 的表達,並存入外部的 memory 中。

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

這樣我們的 memory 里就有了一堆的候選 NP,接著要對 candidate antecedents 的重要性做一個排序,選擇合適的 NP 來 fill in the gap (ZP)。這裡用了 attention 機制,並加入了一些人工特徵(Chen and Ng (2016)),表示為 v(feature)tvt(feature)

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

模型用到了人工特徵,能不能改進?還有是對 OOV 怎麼處理。

小結

整場報告會聽下來,收穫還是有的,只是不如想像中那麼驚艷,各種換換零部件,加個 attention,融入傳統特徵,給人換湯不換藥的感覺,聽多了也就這麼回事兒,最大一個收穫可能是再次意識到了 attention 機制的強大,大部分論文用了 attention 結果都有大幅的改善。anyway,能提高準確率/訓練效率的模型就是好模型!大家都是棒棒噠!學習!

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

美國流行歌手如何使用AI技術創作其新專輯?
現場體驗:全國只有21家的京東之家長啥樣?抱腿AI後又有何不同?
看美國流行歌手如何使用AI技術創作其新專輯?
四維圖新聯手鉑駿科技,推出充電網路地圖

TAG:雷鋒網 |

您可能感興趣

回顧:EMNLP2017論文集28篇論文解讀
ACL2018論文集50篇解讀
CVPR 2018 論文解讀
NeurIPS 2017 論文 2018 年引用量排名揭曉,這裡是排名前三的論文解讀
CVPR 2019 論文解讀精選
優必選4篇CVPR 2018錄用論文摘要解讀
GB/T 19973.1-2015 標準解讀
收藏指數爆表!CVPR 2018-2019幾十篇優質論文解讀大禮包!
2017年度TOP100電影榜解讀
「乾貨」ICML2018:63篇強化學習論文精華解讀!
BOE2017年報解讀 凈利75.68億
2016-2017 學年SAT 成績數據解讀
CVPR 2019 論文解讀:人大 ML 研究組提出新的視頻測謊演算法 | CVPR 2019
最新版ISO12944標準解讀(第7部分:ISO12944-7:2017塗裝的實施與監管)
ICLR 2019論文解讀:量化神經網路
重點!5月1日起實施的國家標準GB/T 34990-2017解讀
原創/《說文解字》540部首探源解讀 1-4;2-1
阿里巴巴 WSDM Cup 2018 奪得第二名,獲獎論文全解讀
2018-7總第44篇:解讀《玉樓春》
Siamese:CVPR 2019 接收論文作者為你解讀視頻跟蹤領域 | CVPR 2019