深度學習模型復現難？看看這篇句子對模型的復現論文

知識 06-23

來源：PaperWeekly

作者：張琨

本文共1500字，建議閱讀7分鐘。

本文是COLING 2018的 Best Reproduction Paper，文章對sentence pair modeling進行了比較全面的介紹。

本期推薦的論文筆記來自PaperWeekly社區用戶@zhkun。

論文介紹

這篇文章是COLING 2018的Best Reproduction Paper，文章主要對現有的做句子對任務的最好的幾個模型進行了重現，並且作者實現出來的效果和原文章聲稱的效果相差不多，這點還是很厲害的，而且作者對語義理解的集中任務也做了相關梳理，文章簡單易讀，還是很值得一看的。

任務

句子對建模是 NLP，NLU 中比較基礎，並扮演著重要角色的任務，主要集中在語義理解，語義交互上，這也是我自己的一個研究方向，大致有這幾類任務：

1. Semantic Textual Similarity (STS) ：判斷兩個句子的語義相似程度（measureing the degree of equivalence in the underlying semantics of paired snippets of text）；

2. Natural Language Inference (NLI) ：也叫 Recognizing Textual Entailment (RTE)，判斷兩個句子在語義上是否存在推斷關係，相對任務一更複雜一些，不僅僅是考慮相似，而且也考慮了推理；

3. Paraphrase Identification (PI) ：判斷兩個句子是否表達同樣的意思（identifing whether two sentences express the same meaning）；

4. Question Answering (QA) ：主要是指選擇出來最符合問題的答案，是在給定的答案中進行選擇，而不是生成；

5. Machine Comprehension (MC) ：判斷一個句子和一個段落之間的關係，從大段落中找出存在答案的小段落，對比的兩個內容更加複雜一些。

論文模型

有了任務，作者選取了集中目前情況下最好的模型，因為原文中每個模型可能只針對了某些任務進行了很多優化，那這些模型是否真的有效呢，作者考慮這些模型在所有的任務上進行比較，在介紹模型之前，作者首先介紹了句子對建模的一般框架：

1. 一般框架：

輸入層：適用預訓練或者參與訓練的詞向量對輸入中的每個詞進行向量表示，比較有名的 Word2Vec，GloVe，也可以使用子序列的方法，例如 character-level embedding；

情境編碼層：將句子所處的情境信息編碼表示，從而更好的理解目標句子的語義，常用的例如 CNN，HighWay Network 等，如果是句子語義表示的方法，一般到這裡就結束了，接下來會根據具體的任務直接使用這一層得到語義表示；

交互和注意力層：該層是可選的，句子語義表示有時候也會用到，但更多的是詞匹配方法用到的，通過注意力機制建模兩個句子在詞層面的匹配對齊關係，從而在更細粒度上進行句子對建模，個人認為句子語義表示也會用到這些，只是句子語義表示最後會得到一個語義表示的向量，而詞匹配的方法不一定得到句子語義的向量；

輸出分類層：根據不同的任務，使用 CNN，LSTM，MLP 等進行分類判斷。

下圖展示了一些句子語義表示的模型的基本框架：

有了這個一般的框架，接下來作者選取了集中目前最好的模型進行重現。

2. 模型選擇：

InferSent[1]：BiLSTM+max-pooling；

SSE[2]：如圖 1，和 InferSent 比較類似；

DecAtt[3]：詞匹配模型的代表，利用注意力機製得到句子 1 中的每個詞和句子 2 中的所有詞的緊密程度，然後用句子 2 中的所有詞的隱層狀態，做加權和表示句子 1 中的每個詞；

ESIM[4]：考慮了一些詞本身的特徵信息，和 DecAtt 比較類似；

PWIM[5]：在得到每個詞的隱層狀態之後，通過不同的相似度計算方法得到詞對之間相似關係，最後利用 CNN 進行分類。

數據

為了更好的展示每個數據的情況，在這裡直接用下圖展示作者使用到的數據集：

結果

直接上結果，上圖是原文章中的結果，下圖是作者重現的結果：

從結果上看，作者實現的效果還是很厲害的，基本上跟原文章聲明的不相上下，當然由於不是針對特定任務進行特別優化，所有效果還是有一點點差的，但基本上可以認為是實現了原來的效果，而且作者也發現了一些有意思的現象，例如：表現最好的就是 ESIM，個人感覺這裡面加入了很多次本身的一些信息，例如近義詞，反義詞，上下位信息等，這些信息其實對句子語義理解十分重要。

以上就是這篇文章的整體介紹，作者完整實現了這些方法，並在不同的數據集上進行驗證，工作量還是很大的，而且對句子對建模進行了比較完整的介紹，還是很有意思的。

參考文獻

[1]. A. Conneau, D. Kiela, H. Schwenk, L. Barrault, A. Bordes, Supervised Learning of Universal Sentence Representations from Natural Language Inference Data

[2]. Shortcut-Stacked Sentence Encoders for Multi-Domain Inference, Yixin Nie and Mohit Bansal.

[3]. A Decomposable Attention Model for Natural Language Inference, AnkurP.Parikh, Oscar T?ckst?m, Dipanjan Das, Jakob Uszkoreit

[4]. Enhanced LSTM for Natural Language Inference, Qian Chen, Xiaodan Zhu, Zhenhua Ling, Si Wei, Hui Jiang, Diana Inkpen

[5]. Hua He and Jimmy Lin. Pairwise Word Interaction Modeling with Deep Neural Networks for Semantic Similarity Measurement

本文作者

張琨，中國科學技術大學博士生，研究方向為自然語言處理。

論文題目：Neural Network Models for Paraphrase Identification, Semantic Textual Similarity, Natural Language Inference, and Question Answering

論文鏈接：https://www.paperweekly.site/papers /2042

論文作者：Wuwei Lan / Wei Xu

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 數據派THU 的精彩文章:

※專訪清華社會學系教授羅家德

TAG:數據派THU |