ACL2017-基於神經網路方法的多文檔摘要
最新
03-28
一,問題
已有的新聞語料,為sentence-to-sentence模型在單文檔摘要中的應用奠定基礎。然而,針對多文檔摘要,缺少相應大規模的用於複雜模型參數估計的語料。本文作者提出一種基於句子的方法,對句子重要度進行回歸分析,然後基於句子重要度的排名得到相應的摘要。
二,方法介紹
本文的一個重要創新之處在於,利用句子之間的關係圖,對句子向量進行優化。針對一個cluster中的多個篇章而言,每個篇章包含多個句子。
首先,每個句子的結構用RNN模型來捕捉,得到相應的句子向量。
圖的構建:對於同一個cluster下,句子之間的關係(邊的權重)通過三種方法衡量,利用tf-idf計算相似度,Approximate Discourse Graph,為了進一步增加變異性,作者提出sentence personalization score。
在圖構建完之後,使用Kipf and Welling (2017)提出的Graph Convolutional Networks,最終輸出,針對每個節點(句子)的隱藏特徵,即考慮到篇章結構的句子向量。
每個篇章,繼續使用rnn模型構建篇章的向量表示。
最後,針對每個cluster,篇章的平均最為cluster向量表示。
最終的句子重要度估計如下式所示:
TAG:SoulInRobot |