當前位置:
首頁 > 知識 > 深度學習模型復現難?看看這篇句子對模型的復現論文

深度學習模型復現難?看看這篇句子對模型的復現論文

來源:PaperWeekly

作者:張琨

本文共1500,建議閱讀7分鐘

本文是COLING 2018的 Best Reproduction Paper,文章對sentence pair modeling進行了比較全面的介紹。

本期推薦的論文筆記來自PaperWeekly社區用戶@zhkun

論文介紹

這篇文章是COLING 2018的Best Reproduction Paper,文章主要對現有的做句子對任務的最好的幾個模型進行了重現,並且作者實現出來的效果和原文章聲稱的效果相差不多,這點還是很厲害的,而且作者對語義理解的集中任務也做了相關梳理,文章簡單易讀,還是很值得一看的。


任務

句子對建模是 NLP,NLU 中比較基礎,並扮演著重要角色的任務,主要集中在語義理解,語義交互上,這也是我自己的一個研究方向,大致有這幾類任務:

1. Semantic Textual Similarity (STS) :判斷兩個句子的語義相似程度(measureing the degree of equivalence in the underlying semantics of paired snippets of text);

2. Natural Language Inference (NLI) :也叫 Recognizing Textual Entailment (RTE),判斷兩個句子在語義上是否存在推斷關係,相對任務一更複雜一些,不僅僅是考慮相似,而且也考慮了推理;

3. Paraphrase Identification (PI) :判斷兩個句子是否表達同樣的意思(identifing whether two sentences express the same meaning);

4. Question Answering (QA) :主要是指選擇出來最符合問題的答案,是在給定的答案中進行選擇,而不是生成;

5. Machine Comprehension (MC) :判斷一個句子和一個段落之間的關係,從大段落中找出存在答案的小段落,對比的兩個內容更加複雜一些。


論文模型

有了任務,作者選取了集中目前情況下最好的模型,因為原文中每個模型可能只針對了某些任務進行了很多優化,那這些模型是否真的有效呢,作者考慮這些模型在所有的任務上進行比較,在介紹模型之前,作者首先介紹了句子對建模的一般框架:

1. 一般框架:

輸入層:適用預訓練或者參與訓練的詞向量對輸入中的每個詞進行向量表示,比較有名的 Word2Vec,GloVe,也可以使用子序列的方法,例如 character-level embedding;

情境編碼層:將句子所處的情境信息編碼表示,從而更好的理解目標句子的語義,常用的例如 CNN,HighWay Network 等,如果是句子語義表示的方法,一般到這裡就結束了,接下來會根據具體的任務直接使用這一層得到語義表示;

交互和注意力層:該層是可選的,句子語義表示有時候也會用到,但更多的是詞匹配方法用到的,通過注意力機制建模兩個句子在詞層面的匹配對齊關係,從而在更細粒度上進行句子對建模,個人認為句子語義表示也會用到這些,只是句子語義表示最後會得到一個語義表示的向量,而詞匹配的方法不一定得到句子語義的向量;

輸出分類層:根據不同的任務,使用 CNN,LSTM,MLP 等進行分類判斷。

下圖展示了一些句子語義表示的模型的基本框架:

有了這個一般的框架,接下來作者選取了集中目前最好的模型進行重現。

2. 模型選擇:

InferSent[1]BiLSTM+max-pooling;

SSE[2]如圖 1,和 InferSent 比較類似;

DecAtt[3]詞匹配模型的代表,利用注意力機製得到句子 1 中的每個詞和句子 2 中的所有詞的緊密程度,然後用句子 2 中的所有詞的隱層狀態,做加權和表示句子 1 中的每個詞;

ESIM[4]考慮了一些詞本身的特徵信息,和 DecAtt 比較類似;

PWIM[5]在得到每個詞的隱層狀態之後,通過不同的相似度計算方法得到詞對之間相似關係,最後利用 CNN 進行分類。


數據

為了更好的展示每個數據的情況,在這裡直接用下圖展示作者使用到的數據集:


結果

直接上結果,上圖是原文章中的結果,下圖是作者重現的結果:

從結果上看,作者實現的效果還是很厲害的,基本上跟原文章聲明的不相上下,當然由於不是針對特定任務進行特別優化,所有效果還是有一點點差的,但基本上可以認為是實現了原來的效果,而且作者也發現了一些有意思的現象,例如:表現最好的就是 ESIM,個人感覺這裡面加入了很多次本身的一些信息,例如近義詞,反義詞,上下位信息等,這些信息其實對句子語義理解十分重要。

以上就是這篇文章的整體介紹,作者完整實現了這些方法,並在不同的數據集上進行驗證,工作量還是很大的,而且對句子對建模進行了比較完整的介紹,還是很有意思的。


參考文獻

[1]. A. Conneau, D. Kiela, H. Schwenk, L. Barrault, A. Bordes, Supervised Learning of Universal Sentence Representations from Natural Language Inference Data

[2]. Shortcut-Stacked Sentence Encoders for Multi-Domain Inference, Yixin Nie and Mohit Bansal.

[3]. A Decomposable Attention Model for Natural Language Inference, AnkurP.Parikh, Oscar T?ckst?m, Dipanjan Das, Jakob Uszkoreit

[4]. Enhanced LSTM for Natural Language Inference, Qian Chen, Xiaodan Zhu, Zhenhua Ling, Si Wei, Hui Jiang, Diana Inkpen

[5]. Hua He and Jimmy Lin. Pairwise Word Interaction Modeling with Deep Neural Networks for Semantic Similarity Measurement


本文作者

張琨,中國科學技術大學博士生,研究方向為自然語言處理。

論文題目:Neural Network Models for Paraphrase Identification, Semantic Textual Similarity, Natural Language Inference, and Question Answering

論文鏈接:https://www.paperweekly.site/papers /2042

論文作者:Wuwei Lan / Wei Xu

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 數據派THU 的精彩文章:

專訪清華社會學系教授羅家德

TAG:數據派THU |