廈門大學：使用特定語境詞向量表示改進隱式篇章關係識別

最新 04-17

你和「懂AI」之間，只差了一篇論文

很多讀者給芯君後台留言，說看多了相對簡單的AI科普和AI方法論，想看點有深度、有厚度、有眼界……以及重口味的專業論文。

為此，在多位AI領域的專家學者的幫助下，我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成，芯君和編輯部的老師們都會一起笑到崩潰，當然有的論文我們看得抱頭痛哭。

同學們現在看不看得懂沒關係，但芯君敢保證，你終有一天會因此愛上一個AI的新世界。

這是讀芯術解讀的第20篇論文

ACL 2017 Short Papers

使用特定語境詞向量表示改進隱式篇章關係識別

Improving Implicit Discourse Relation Recognition with

Discourse-specific Word Embeddings

廈門大學

Xiamen University

【摘要】我們引入一種簡單有效的方法來學習特定語境詞向量表示（DSWE），用於隱式篇章關係識別。具體來說，DSWE是通過對大量顯式篇章數據進行連接分類而獲得的，並且能夠捕獲詞之間的語境關係。在PDTB數據集上，使用DSWE作為特徵可以顯著改善基準實驗效果。

1 引言

兩句之間的篇章關係（例如對比Contrast、連接Conjunction）是話語結構分析的關鍵子任務。這些關係可以使許多下游的NLP任務受益匪淺，包括問答、機器翻譯等。篇章關係實例通常被定義為一個連接詞（例如，但是，和）和兩個參數（例如，從句和句子）。對於明確的篇章關係識別，僅使用連接詞作為特徵，準確率達到93％以上（Pitler和Nenkova，2009）。隱含的篇章關係識別沒有明顯的線索，如連詞，現如今仍然是一個挑戰。

早期的研究通常採用語言知識特徵，並利用監督學習方法來執行任務（Pitler等，2009; Lin et al., 2009; Louis et al., 2010; Rutherford and Xue，2014; Braud and Denis，2015）。在這些特徵中，出現在論證中的單詞對被認為是重要的特徵，因為它們可以部分地捕捉兩個論元之間的篇章關係。例如，像（good, great）的同義詞對可能表示一個連接關係，而反義詞對（如good, bad）可能意味著一個對比關係。然而，由於數據稀疏性問題，基於前人工作中單詞對分類的方法已經不能正常工作了。為了解決這個問題，最近的研究使用單詞向量表示（又稱分散式表示）而不是單詞作為輸入特徵，並設計了各種神經網路來捕捉論元間的篇章關係（Zhang et al., 2015; Ji and Eisenstein，2015; Qin et al 2016; Chen et al., 2016; Liu和Li，2016）。雖然這些研究取得了可觀結果，但它們都是基於預先訓練的詞向量表示，忽略了語境信息（例如，good, great, bad往往被映射成近似向量）。因此，使用對篇章關係敏感的詞向量表示將進一步提升系統性能。

在本文中，我們提出從顯式數據中學習特定語境詞向量表示（DSWE）來進隱式篇章關係識別的。我們的靈感來自於同義（反義）詞對傾向於出現在語境連接詞and (but)周圍的現象。其他連詞也可以提供一些語境線索。我們期望將這些語境線索編碼成詞的分散式表示，以捕獲它們之間的篇章關係。為此，我們使用簡單的神經網路對大量顯式數據進行連接分類。顯式數據可以被認為是用連詞自動標註的。雖然它們不能直接用作隱式篇章關係識別的訓練數據並包含一些雜訊，但它們足夠有效地用於訓練弱監督下特定語境詞向量表示。

我們將DSWE作為監督神經網路中的特徵應用於隱式篇章關係識別。在PDTB（Prasad等人，2008）上，使用DSWE可以比使用現成的單詞向量表示或包含顯式數據的最新系統，產生更好的性能。我們在第2節詳細介紹我們的方法，並在第3節進行評估。結論在第4節中給出。DSWE是公開的。

2特定語境詞向量表示

在本節中，我們首先介紹用於學習特定語境詞向量表示（DSWE）的神經網路模型，然後收集顯式篇章數據進行訓練。最後，強調了本文工作和相關研究之間的差異。

圖1用於學習DSWE的神經網路模型。顯式實例被表示為（arg1，arg2，conn）。表示arg1中的單詞。兩個論元連接為輸入，隱藏層的數量不限於兩個。

我們通過執行連接分類，基於顯式數據來推導DSWE。連接分類任務是預測哪種話語連接適合於組合兩個給定論元。它基本上類似於隱式關係識別，只是使用不同的輸出標籤。因此，隱含關係識別的任何現有神經網路模型都可以很容易地用於連接分類。我們使用（Wu et al., 2016）中的模型進行連接分類，因為它很簡單，足以使我們能夠對大量數據進行訓練。如圖1所示，首先將參數表示為其中單詞分散式表示的平均值。在兩個參數的並置中，然後使用多個非線性隱藏層來捕獲它們之間的交互。最後，將softmax層堆疊進行分類。我們將交叉誤差和正則化誤差乘以係數λ作為目標函數。在訓練期間，我們隨機初始化所有單詞的分散式表示，並調整它們以最小化目標函數。所有單詞最終獲得的分散式表示就是我們的特定語境的詞向量表示。

收集顯式篇章數據包括兩個步驟：1）區分一個連接詞是否反映了篇章關係。例如，連接詞「and」可以作為一個篇章連接詞來連接兩個論元，或者只是用來鏈接短語中的兩個名詞。2）確定兩個論元的位置。根據（Prasad等人，2008），arg2被定義為連接詞後的參數，然而，arg1可以位於與連接詞相同的之前或之後的句子中。Lin等人（2014）顯示，區分連詞的準確率超過97％，而認定論元比率低於80％。因此，我們使用現有的toolkit來查找篇章連接詞，並且使用類似[arg1 because arg2]模式收集顯式實例，其中兩個論元在同一句中，以減少噪點。我們相信，當使用非常大的語料庫時，這些簡單的模式就足夠了。請注意，在PDTB中有100個篇章連接詞，為了簡單起見，我們忽略四個並行連接詞（例if...then）。收集顯式數據的方式可以很容易地推廣到其他語言，只需要訓練一個分類器來查找篇章連接詞（Lin et al., 2014）。

本文工作的一些方面類似於（Biran和McKeown，2013; Braud和Denis，2016）。基於大量的顯式實例，他們首先建立一個連詞共現頻率矩陣，然後對這些原始頻率進行加權。以這種方式，它們在連詞空間中直接編碼他們的語境功能進行詞表示。他們的方法的主要限制是詞表示的維度必須小於或等於連接詞的數量。相比之下，我們通過預測參數上的連接條件來學習DSWE，從而產生更好的性能，並且沒有這樣的維度限制。一些研究人員通過多任務學習（Lan et al., 2013; Liu et al., 2016）或數據篩選（Rutherford and Xue，2015; Wu et al., 2016），使用顯式數據作為額外的訓練數據。

在這兩種情況下，顯式數據直接用於估計隱式關係分類器的參數。因此，由於噪音問題，他們難以整合大量的顯式數據。相對地，我們通過從他們學習詞向量表示來利用大量顯式數據。

3 實驗

我們從英語Gigaword Corpus（第3版）的Xin和Ltw收集顯式數據，得到大約4.92M的顯式實例。我們隨機抽取20,000個實例作為開發集，其他實例作為DSWE的訓練集。在丟棄少於5次的詞後，辭彙量的大小為185,048。對於連接分類任務，我們在開發集上獲得約53％的精度。

我們將圖1所描述的神經網路模型作為隱式篇章關係識別（CDRR）的分類器。具體來說，我們將一些基礎特徵與最後一個隱藏層連接起來，作為softmax層的輸入來預測篇章關係。根據Peng等人提供的工具包，我們選擇500種production rule（Lin et al., 2009）和500種 Brown Brown Pair（Rutherford and Xue，2014）（2005）。我們學習的DSWE被用作CDRR的預先訓練的詞向量表示，並在訓練期間固定。

根據其相應的開發數據集選擇訓練DSWE和CDRR的超參數，如表1所示。

表1 用於訓練DSWE和CDRR的超參數。 wdim表示詞向量表示的維度，hsize表示隱藏層的大小，lr為學習率，λ為正則化係數，update為參數更新策略，f為非線性函數。注意，[200,50]意味著CDRR分別使用兩個尺寸分別為200和50的層。訓練DSWE的學習率每次迭代衰減0.8倍。

根據Liu等人（2016）的方法，我們對PDTB：Temporal (Temp), Comparison (Comp), Contingency (Cont) and Expansion (Expa)中的四個頂級關係進行了四分類。 PDTB分為訓練集（第2-20節），開發集（第0-1部分）和測試集（第21-22節）。表2列出了這些數據集的統計。由於測試數據集不均勻，我們採用不同的隨機種子（因此不同的初始參數）分別運行10次我們的方法，並展示了最接近平均結果的運行結果。最後，我們使用精確度Accuracy和Macro F1（宏觀F1）來評估我們的方法。

表2 PDTB數據集統計

我們將本方法學習的特定語境詞向量表示（DSWE）與兩個公開可用的詞向量表示進行比較：

表3 使用不同詞向量的結果。我們還列出了每個關係的精確度、召回率和F1分數。

1）GloVe：使用基於計數的模型（Pennington等人，2014），使用維基百科2014和Gigaword 5共6B單詞進行訓練，辭彙量為400K，維數為300。

2）word2vec：使用（Mikolov等人，2013）中的CBOW模型在Google新聞100B單詞上進行訓練，辭彙量為3M，維度為300。

表3中的結果表明，使用DSWE獲得顯著改善（one-tailed t-test , p

我們還將我們的方法與三個最近的系統進行比較，這些系統也使用顯式數據來提高性能：

1）R＆X2015：Rutherford and Xue (2015) 根據所選擇的連詞構建顯式數據的弱標註數據，直接擴大訓練數據。

2）B＆D2016：Braud和Denis（2016）學習基於連詞的詞表示，並基於它們構建邏輯回歸模型。

3）Liu2016：Liu et al.（2016）使用一個多任務神經網路來合併幾個語境相關的數據，包括顯式數據和RSTDT語料庫（William和Thompson，1988）。

表4 與近期系統的比較

表4中的結果顯示了我們的方法的優越性。雖然Liu2016在Macro F1上表現稍好一點，但是它使用附加標籤的RST-DT語料庫。對於R＆X2015和Liu2016，由於雜訊問題，它們分別包含相對較小的顯式數據，例如分別為20,000和40,000個實例。相比之下，我們的方法受益於大約4.9M的顯式實例。雖然B＆D2016使用大量的顯式數據，但是由於詞向量表示的最大維度限於連接詞的數量，例如在其工作中是96，這是受到限制的。總的來說，我們的方法可以有效地利用大量顯式數據，因此比基準方法更強大。

表5 在word2vec和DSWE中前15個最接近not和good的單詞。

為了推斷什麼信息被編碼到DSWE中，根據餘弦相似性，我們在表5中列出了前15個最接近的not和good的單詞。我們可以發現，在DSWE中，與not相似的單詞在某種程度上具有負面意義。而且由於decline與not相似，分類器可能很容易識別隱含的實例[A network spokesman would not comment. ABC Sports officials declined to be inter- viewed. ]為連接關係。對於DSWE的good，類似的詞不再包括像bad這樣的詞。此外，good與great之間的相似得分為0.54，而good與bad之間的得分僅為0.33，這可能使分類器更容易區分單詞對（good, great）和（good, bad），因此有助於預測連接關係。這種定性分析表明我們的DSWE能夠捕捉單詞之間的篇章關係。

最後，我們進行實驗來調查用於訓練DSWE的連接詞對我們結果的影響。具體來說，我們使用前10、20、30、60個最常見或全部連接詞的顯式篇章實例來學習DSWE，分別佔總數的78.9％、91.9％、95.8％、99.4％或100％。前10個最常見的連接詞是：and, but, also, while, as, when, after, if, however和because，覆蓋了PDTB中定義的所有四個頂級關係。如圖2所示，在只有前10個連接詞的情況下，學習到的DSWE就能實現比普通詞向量表示方法更好的性能。我們同時也觀察到了使用前20個連接詞時的顯著改進，前30個連詞時幾乎是最佳性能，並且在繼續增加連接詞時沒有進一步的實質性改進。這些結果表明，我們只能使用前n個最常見的連詞來收集顯式篇章數據進行DSWE生成，這對大多數語言來說都是非常方便的。

圖2 連接詞數量對訓練DSWE的影響

4 結論

在本文中，我們從隱式篇章關係識別的大量顯式數據中學習特定語境的詞向量表示。在PDTB上的實驗表明，使用學習到的詞向量表示作為特徵可以顯著提高性能。同時還表明，本文方法可以比以前的工作更有效地使用顯式數據。由於隱式篇章關係識別的大多數神經網路模型使用預訓練的詞向量表示作為輸入，我們希望通過本文方法學習到的詞向量表示可以對他們提供一定幫助。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 讀芯術 的精彩文章:

※給你講個恐怖的故事：女朋友妝前妝後……
※今日芯聲開魔方僅需0.38秒，你敢來挑戰嗎？

TAG:讀芯術 |

廈門大學：使用特定語境詞向量表示改進隱式篇章關係識別

3.1 數據和設置

3.2 結果