當前位置:
首頁 > 最新 > 北德克薩斯大學:PositionRank-一種學術文檔關鍵短語提取的無監督方法

北德克薩斯大學:PositionRank-一種學術文檔關鍵短語提取的無監督方法

你和「懂AI」之間,只差了一篇論文

很多讀者給芯君後台留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。

為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。

同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。

這是讀芯術解讀的第9篇論文

【摘要】大量和不斷增加的在線學術數據為增強知識發現提供了新的挑戰和機會。其中一個挑戰是自動從文檔中提取關鍵短語集合以準確描述文檔內容,並可以促進快速信息處理。在本文中,我們提出了PositionRank,一個針對學術文檔的無監督關鍵短語提取模型,其中將單詞出現的所有位置信息融入到有偏PageRank。與未考慮詞位置的PageRank模型和強大的基準方法相比,我們的模型取得了顯著改進。具體來說,在研究論文的幾個數據集上,PositionRank實現了高達29.09%的提高。

1 引言

目前的學術網站包含數百萬科學文獻。例如,Google Scholar估計有超過1億份文檔。一方面,這些快速發展的學術文獻集合有益於知識發現,另一方面,發現有用的信息變得非常具有挑戰性。與文檔相關聯的關鍵短語通常提供文檔的高級主題描述,並且可以允許高效信息處理。另外,在許多自然語言處理和信息檢索任務(如科學論文摘要、分類、推薦、聚類和搜索)中,關鍵短語被證明是豐富的信息來源(Abu-Jbara和Radev,2011;Qazvinian等,2010 ; Jones和Staveley,1999; Zha,2002; Zhang et al., 2004; Hammouda等,2005)。由於其重要性,文獻中已經提出了許多關鍵短語提取方法,主要包含兩個研究方向:監督和無監督方法(Hasan andNg, 2014, 2010)。

在有監督方法的研究中,關鍵短語提取被定義為二分類問題,其中候選詞被分類為正(即關鍵短語)或否(即非關鍵短語)(Frank等,1999;Hulth,2003 )。各種特徵集和分類演算法產生不同的提取系統。例如,Frank等人(1999)開發了一種系統,為每個候選片語提取兩個特徵,即短語的tf-idf及其距離目標文檔開頭的距離,並將其作為輸入到Naive貝葉斯分類器。雖然監督方法通常比無監督方法表現更好(Kim et al.,2013),但是對於每個研究領域的大型人工標註語料庫的要求已經引起了對無監督方法設計的重視。

在無監督的研究課題中,關鍵短語提取被認為是最先進的基於圖排序的排名問題(Hasan andNg,2014)。這些基於圖的技術從每個目標文檔構造一個詞圖,使得節點對應於單詞,邊緣對應於單詞關聯模式。然後使用圖排序演算法(例如PageRank(Mihalcea和Tarau,2004; Liuet al., 2010))或HITS(Litvak和Last,2008)對節點進行排序,並將頂級片語作為關鍵短語返回。自從引入以來,已經提出了許多基於圖的擴展,其目的在於對各種類型的信息進行建模。例如,Wan和Xiao(2008)提出了一種模型,其中包含與文本相似文檔對應的目標文檔的本地鄰居,使用文檔的tf-idf向量之間的餘弦相似度計算。 Liu etal.(2010)假設了文件中的主題,並提出使用主題模型來分解這些主題,以便從所有主題中選擇關鍵短語。然後通過聚合從幾個主題偏好的PageRank獲得的主題特定分數來排序關鍵短語。我們假設可以利用其他信息來改善無監督的關鍵短語提取。

圖1 Rendle等人(2010)的WWW論文的標題和摘要和作者輸入的論文短句。紅色粗體詞表示文檔的黃金標準關鍵短語。

例如,在學術領域中,關鍵短語通常發生在非常接近文檔開頭的位置,並且頻繁發生。圖1顯示了在2010國際萬維網會議上最優秀論文獎項獲得者的具體示例。作者輸入的關鍵短語在圖中用紅色粗體標識。在這個例子中注意到在文檔中很早發生的關鍵短語「Markovchain」的頻率很高(甚至從它的標題)。因此,我們可以通過聯合利用單詞的位置信息和文檔中的頻率來設計一種有效的無監督的關鍵短語提取方法嗎?我們使用研究論文作為案例研究來專門討論這個問題。這項提取任務的結果將有助於數字圖書館的文件索引,從而改進科學文獻的組織、搜索、檢索和推薦。關於從研究論文中進行關鍵短語提取的重要性,在2017年和2010年的SemEval共享任務也強調了這一主題(Kim等,2010)。我們的貢獻如下:

我們提出了一個無監督的圖模型,稱為PositionRank,它將來自一個單詞的所有出現位置信息融入到一個有偏PageRank中,為稍後用於打分和排序研究論文中關鍵短語的關鍵字打分。

我們顯示聚合了單詞出現的所有位置信息的PositionRank比僅使用單詞第一個位置的模型表現得更好。

我們實驗性地評估了三個研究論文數據集上的PositionRank,並且顯示出相比不考慮單詞位置的PageRank模型以及關鍵短語提取的強大基準方法的顯著改進。

本文的其餘部分安排如下。我們在下一節總結相關工作。 PositionRank在第3節中描述。然後,我們將在第4章介紹研究論文的數據集,以及我們的實驗和結果。最後,我們在第5節總結論文。

2 相關工作

文獻中提出了許多有監督和無監督的關鍵短語提取方法(Hasan and Ng,2014)。

有監督的方法使用帶有「正確」關鍵短語的標註文檔來訓練分類器,用於區分來自文檔的非關鍵短語。KEA(Frank等,1999)和GenEx(Turney,2000)是兩種代表性的監督方法,其中最重要的特徵是目標文件中短語的頻率和位置。 Hulth(2003)使用辭彙和句法特徵的組合,例如詞袋技術連接中片語的集合頻率和詞性標籤。Nguyen和Kan(2007)擴展了KEA,以包括研究論文不同部分中候選詞的分布等特徵,以及短語的首字母縮寫。在另一項工作中,Medelyan等(2009)擴大了KEA整合維基百科的信息。Lopez和Romary(2010)使用基於組合特徵的詞袋決策樹,包括結構特徵(例如文檔的特定部分中的短語的是否出現)和辭彙特徵(例如,在WordNet或維基百科中是否存在候選片語)。 Chuang等(2012)提出了一種包含一組統計和語言特徵(例如,tf-idf、BM25、詞性過濾器)的模型,用於識別文本中的描述性單詞。Caragea等(2014a)基於文檔網路(例如引文網路)中可用的信息設計了特徵,並在監督框架中將其與傳統特徵一起使用。

在無監督的方法中,使用諸如tf-idf和主題分布之類的各種措施來對詞進行評分,這些詞後來被聚合以獲得短語分數(Barker和Cornacchia,2000;Zhang等人,2007; Liuet al., 2009)。基於tf-idf的排名在實踐中表現良好(Hasan and Ng,2014,2010),儘管它簡單。基於圖的排名方法和中心度量被認為是無監督的關鍵短語提取的最先進技術。 Mihalcea和Tarau(2004)提出了TextRank,通過將PageRank應用於由文檔中的相鄰單詞構成的詞圖上,從而對關鍵短語進行評分。 Wan和Xiao(2008)通過在可變大小w≥2的窗口中共同出現的單詞之間加上加權邊緣,將TextRank擴展為SingleRank。ExpandRank(Wan和Xiao,2008)中包含類似文本的相鄰文檔,以計算更準確的詞共現信息。Gollapalli和Caragea(2014)擴展了ExpandRank,融入引文網路信息。

Lahiri等(2014)從文獻中提取了關鍵短語,使用了諸如節點度、聚類係數和緊密度等各種中心度度量方法。Martinez-Romo等人(2016)使用WordNet中的信息來豐富圖中單詞之間的語義關係。

幾種無監督方法利用詞聚類技術,例如首先將候選詞分類成多個主題,然後從每個主題中提取一個代表性關鍵短語(Liu等人,2009;Bougouin等,2013)。 Liu et al.(2010)將主題偏向的PageRank(Haveliwala,2003)擴展到關鍵短語提取。特別是,他們使用主題模型將文檔分解為多個主題,並為每個主題應用單獨的主題PageRank。然後使用主題模型為文檔返回的主題比例作為權重,將每個主題的PageRank得分合併為唯一得分。

SemEval 2010(El-Beltagy和Rafea,2010)中表現最好的關鍵短語提取系統使用諸如術語頻率的統計學觀察來過濾不太可能是關鍵短語的短語。更準確地說,使用從數據估計出的閾值的頻率。然後使用tf-idf模型結合促進因子來排列候選短語,其目的在於減少對單個詞語的偏好。Danesh等人(2015)基於統計啟發式的組合來計算每個短語的初始權重,諸如tf-idf分數和文檔中短語的第一位置。然後將短語及其初始權重合併到基於圖的演算法中,該演算法產生關鍵短語候選者的最終排名。 Le et al.(2016)表明,從文檔中提取關鍵短語可以從考慮候選片語的角度看待除了名詞或形容詞之外的詞性標籤。Adar和Datta(2015)通過從科學文獻中挖掘縮寫提取了關鍵短語,並構建了一個語義上分層的關鍵短語資料庫。詞向量也用於測量基於圖的模型中的單詞之間的相關性(Wang etal., 2014)。在Hasan和Ng(2014)的關鍵短語提取的ACL調查中比較和分析了以上監督和無監督的許多方法。

與上述方法相反,我們提出了PositionRank,旨在捕獲高頻率的單詞或短語及其在文檔中的位置。儘管一個單詞在文檔中的相對位置在監督關鍵短語提取中被證明是非常有效的特徵(Hulth,2003;Zhang et al., 2007),據我們所知,位置信息以前沒有被用於無監督方法。本文的重要貢獻在於設計了一種位置偏好的PageRank模型,該模型成功地包含了單詞出現的所有位置,這與僅使用單詞第一個位置的受監督模型不同。我們的模型為文檔中早期發現的單詞賦予更高的概率,而不是對單詞使用均勻分布。

3 提出模型

在本節中,我們描述了我們完全無監督、基於圖的模型的PositionRank,它同時將單詞的位置及其頻率包含在文檔中,以計算每個候選詞的有偏PageRank分數。基於圖的排序演算法(如PageRank(Page etal., 1998))通過考慮從整個圖遞歸計算的全局信息來測量圖中頂點的重要性。對於每個單詞,我們通過聚合單詞出現的所有位置的信息來計算權重。然後將該權重合併到有偏的PageRank演算法中,以便為每個單詞分配不同的「偏好」。

3.1 PositionRank

PositionRank演算法涉及三個基本步驟:(1)單詞級圖構建;(2)位置偏好的PageRank設計;和(3)候選片語生成。這些步驟詳細描述如下。

3.1.1 圖的構建

假設d為關鍵短語提取的目標文件。我們首先使用NLP斯坦福工具包的詞性標註器,然後選擇與前人工作(Mihalcea和Tarau,2004; Wan和Xiao,2008)類似的名詞和形容詞作為候選詞。我們為d建立一個詞圖G =(V,E),通過詞性標註器的每個唯一的字對應於圖G的一個節點。如果兩個節點對應的單詞在文檔d中連續分詞的固定窗口w中,兩個節點vi和vj連接起來作為一條邊(vi, vj)。注意,圖可以被構造為有向和無向圖。然而,Mihalcea和Tarau(2004)顯示,用於表示文本的圖類型不會顯著影響關鍵短語提取的表現。因此,在這項工作中,我們構建無向圖。

3.1.2 位置偏好(Position-Biased)的PageRank

形式上,將G構造為無向圖,並將M作為其鄰接矩陣。如果節點vi和vj之間存在邊緣,則將元素mij∈M設置為邊緣權重(vi,vj),否則設置為0。通過將與vi相關聯的節點vj的歸一化分數相加來遞歸地計算節點vi的PageRank得分(如下所述)。

令S表示PageRank得分的向量,對於所有的vi∈V。S的初始值設置為。然後可以使用以下方式遞歸地計算步驟t + 1處的每個節點的PageRank得分:

其中是矩陣M的歸一化形式,定義為:

PageRank計算可以看作是馬爾科夫過程,其中節點表示狀態,它們之間的鏈接是轉換。通過遞歸地應用等式(1),我們在每個節點下得到主要特徵向量,表示每個狀態的固定概率分布(Manning等,2008)。

為了確保PageRank(或隨機遊走)不會陷入圖循環,添加了阻尼因子α,以允許對圖中的另一個節點進行「傳送」操作。因此,S的計算變為:

其中S是主要特徵向量,是長度| V |的向量,每一維的值為。向量表示,在節點vi中,隨機遊走可以以相等的概率跳轉到圖中的任何其他節點。

通過偏置,隨機遊走將優先遊走到圖中具有較高概率的節點(Haveliwala,2003)。

PositionRank的想法是為文檔中早期發現並且頻繁出現的單詞分配較大的權重(或概率)。具體來說,我們希望為在同一文檔中的第2個位置的詞與第50個位置上找到的詞分配更高的概率。在應用任何過濾器之前,我們將每個候選詞的權重設置為其在文檔中的出現位置的倒數。如果同一個詞在目標文檔中出現多次,則我們將其所有位置權重相加。例如,如果在以下位置找到一個單詞:第2,第5和第10,它的權重為:。加和一個給定單詞的所有位置權重,旨在通過考慮到每次出現的位置權重,給經常出現的單詞給予更大的置信度。然後,向量被設置為每個候選詞的歸一化權重如下:

結點vi的PageRank得分S(vi)通過使用代數方法遞歸地計算以下公式:

其中和是結點vi在向量中的權重。

在我們的實驗中,遞歸計算「PageRank分數」,直到兩次連續迭代之間的差值小於0.001,或達到100次迭代次數。

3.1.3 候選短語形成

在文檔中具有連續位置的候選詞被連接成短語。我們考慮與長達3的正則表達式「(形容詞)*(名詞)+」相匹配的名詞短語(即單字,雙數字和三元組)。

最後,通過使用構成短語的單個詞的得分總和(Wan和Xiao,2008)來對短語打分。最高評分短語作為預測輸出(即,文檔的預測關鍵短語)。

4 實驗和結果

4.1 數據集和評價標準

為了評估PositionRank的性能,我們對三個數據集進行了實驗。第一個和第二個數據集由Gollapalli和Caragea(2014年)提供。這些數據集是從CiteSeerX數字圖書館(Giles等,1998)編製的,由ACM知識發現會議和數據挖掘(KDD)和國際萬維網會議(WWW)。第三個數據集由Nguyen和Kan(2007)提供,由各個學科的研究論文組成。在實驗中,我們使用每篇論文的標題和摘要來提取關鍵短語。作者輸入的關鍵短語被用作評估的黃金標準。所有三個數據集總結在表1中,其中顯示了每個數據集中的論文數量、關鍵短語的總數(Kp)、每個文檔的平均關鍵短語數(AvgKp),以及可用關鍵詞的長度和數量的簡要描述。

評估指標。我們使用平均相對秩(MRR)曲線來說明我們的實驗結果。 MRR給出了第一個正確預測的平均排名,並定義為:

其中D是文檔的集合,rd是文檔d中發現的第一個正確關鍵短語的排名。我們還將PositionRank與以前的模型進行比較,總結了準確率Precision、召回率Recall和F1值F1-score的結果,因為這些指標被廣泛應用於前人工作中(Hulth,2003; Wan和Xiao,2008;Mihalcea和Tarau,2004; Hasan 和Ng,2014)。為了計算「性能@k」(如MRR @ k),我們檢查前k個預測(k範圍從1到10)。我們使用平均值k來表示特定數據集的平均數量,如表1所列。例如,WWW數據集的平均值k = 5。為了比較的目的,我們使用PorterStemmer將預測和黃金關鍵短語減少到一個基礎形式。

4.2 結果和討論

我們的實驗圍繞幾個問題組織,這些問題將在下面討論。

PositionRank對其參數有多敏感?我們模型中影響性能的一個參數是窗口大小w,它決定了如何在圖中的候選詞之間添加邊。我們以1為步驟,嘗試從2到10的值,並選擇幾種配置進行說明。圖2顯示了在所有三個數據集上,不同值w的PositionRank的MRR曲線。從圖中可以看出,隨著w變化,我們的模型性能沒有顯著變化。

除了窗口大小,我們的模型還有一個參數,即阻尼因子α。為了理解其對PositionRank性能的影響,我們嘗試了α的幾個值,例如0.75,0.8,0.85,0.9,並沒有發現PositionRank的性能有顯著差異(結果沒有顯示出由於高度重疊的曲線)。因此,在公式2中,我們設置α= 0.85(Haveliwala,2003)。

不是僅使用單詞的第一個位置,而是將單詞所有位置信息聚合在一起的影響是什麼?在本實驗中,我們分析了文檔中位置加權頻率詞對PositionRank表現的影響。具體來說,我們比較模型的性能,該模型將單詞出現的所有位置的信息(稱為PositionRank全模型)與僅使用單詞的第一個位置(稱為PositionRank fp)的模型進行比較。在上一節的例子中,在第2、第5和第10位出現的一個字將在整個模型中具有的權重,第一個位置模型(fp)的權重為。請注意,在有偏的PageRank中使用單詞的權重應首先進行歸一化。對於所有數據集,KDD、WWW和Nguyen,前k個預測關鍵短語的MRR的k從1到10的實驗的結果。從圖中可以看出,在所有數據集上,PositionRank全面模型的表現始終優於僅使用第一個位置的情況。我們可以從這個實驗中得出結論,聚合來自一個詞的所有出現信息可以作為PositionRank中的重要組成部分。因此,我們使用PositionRank全模型進行進一步比較。

位置信息有助於論文中的無監督關鍵短語提取?在本實驗中,我們將位置有偏的PageRank模型(PositionRank)與不使用位置信息的兩個基於PageRank的模型TextRank和SingleRank進行比較。在TextRank中,為每個目標論文構建了一個無向圖,使得節點對應於單詞,邊緣在文本中彼此相鄰的兩個單詞之間繪製,即窗口大小w為2。SingleRank通過在文本中w≥2個的連續詞的窗口中共現的兩個單詞之間添加邊來擴展TextRank。

顯示了將PositionRank與TextRank和SingleRank進行比較的MRR曲線。從圖中可以看出,PositionRank在所有三個數據集上基本上都勝過TextRank和SingleRank,說明「位置」信息包含有助於關鍵短語提取任務的重要信息。PositionRank可以在無監督設置下成功利用此信息,以獲得良好的提取性能。例如,使用來自單詞出現的所有位置信息的PositionRank可以改善KDD的MRR @平均k為17.46%,WWW為20.18%,對於Nangyen為單一Rank則為17.03%。

PositionRank與其他現有最先進的方法比較如何?在圖5中,我們比較了PositionRank與幾個基準方法:TF-IDF,ExpandRank和TopicalPageRank(TPR)(Hasan andNg,2014; Wan和Xiao,2008; Liuet al., 2010)。我們根據Hasan和Ng的關鍵短語提取的ACL調查(2014)選擇了這些基線。在TF-IDF中,我們計算目標文檔中每個候選詞的tf分數,而從三個數據集估計idf分量。在ExpandRank中,我們從每個論文及其本地文本鄰居構建一個無向圖,並使用PageRank計算候選詞的重要度得分。我們用不同數量的類似文本的鄰居進行實驗,並為每個數據集呈現最佳結果。在TPR中,我們使用目標文件中的信息構建一個無向圖。然後,我們使用主題模型來執行目標文檔的主題分解,以推斷文檔的主題分布並計算這些主題中單詞的概率。最後,我們通過聚合來自幾個主題偏好的PageRanks(每個主題一個PageRank)的分數來計算候選詞的重要性分數。我們使用了Mallet的主題模型的實現[3]。為了訓練主題模型,我們使用了Caragea等(2014B)引入的CiteSeerx學術數據集提取的大約45,000個論文摘要的子集。對於所有模型,通過對短語中的組成單詞的分數求和來獲得短語的分數。

從圖5可以看出,在所有數據集上,PositionRank在基線上實現了MRR的顯著增加。例如,該實驗的MRR@average k在Nguyen集合上提高了29.09%。在圖5中比較的所有模型中,ExpandRank顯然是性能最好的,而TPR在所有數據集上達到最低的MRR值。

4.3 整體性能

如前所述,前人工作中也展示了準確率(P)、召回率(R)和F1得分(F1)(Hulth,2003;Hasan and Ng,2010; Liu et al., 2010; Wan和Xiao,2008)。與這些作品一致,在表2中,我們在所有三個數據集上顯示了PositionRank與所有基線的比較結果,以P,R和F1為頂點k =2,4,6,8預測關鍵短語。從表中可以看出,在所有數據集上,PositionRank優於所有基線。例如,在WWW排名前6位的預測關鍵短語中,PositionRank達到了12.1%的F1評分,而ExpandRank達到11.2%,而TFIDF和TPR均達到10.7%。從表中可以看出,ExpandRank通常是所有數據集上性能最好的基準。然而,有趣的是,與使用僅來自目標論文信息的PositionRank不同,ExpandRank從目標論文文本上類似的鄰居添加外部信息,因此在計算上更昂貴。

PositionRank的第一個位置(fp)通常比PositionRank-full模型更差,但是對於所有數據集,它仍然優於大多數top k個預測關鍵短語的基線方法。例如,在前4名的Nguyen上,PositionRank-fp與最佳基線(TF-IDF在這種情況下)相比,達到10.5%的F1得分,達到9.6%。

值得注意的是,PositionRank在所有數據集上都勝過TPR。與我們的模型相比,TPR是一個非常複雜的模型,它使用主題模型來學習單詞的主題,並推斷文檔的主題比例。此外,TPR還需要為每個數據集分別調整參數(例如,主題數量)。PositionRank不那麼複雜,它不需要額外的數據集(例如,訓練主題模型),其性能優於TPR。TF-IDF和ExpandRank是所有數據集KDD、WWW和Nguyen上性能最好的基準。例如,在k = 4的KDD上,TF-IDF和ExpandRank的F1分數分別為9.4%和10.1%,而TextRank,SingleRank和TPR分別為8.4%,9.0%和8.9%。

對我們的結果進行paired t-test檢驗,我們發現PositionRank的MRR、準確率、召回率和F1得分得到明顯改善(p值

4.4 真實證據

我們用Gao等人(2006)的論文進行實際驗證。它是Nguyen數據集的一部分。圖6顯示了本文的標題和摘要以及作者輸入的關鍵短語。我們以粗體黑色標記了由我們提出的模型(PositionRank)預測為關鍵短語的候選片語,黑色選擇為候選短語的單詞,並以灰色表示基於其詞性標籤和停用詞表過濾掉的單詞。我們顯示每個候選詞在其右上角的概率(或權重)。這些權重是基於單詞的位置和文本中的頻率來計算的。請注意,我們的模型使用這些權重將PageRank演算法偏置為偏好圖中的特定節點。

可以看出,作者關鍵短語的組成部分如「collaborative,」「crawling,」 「focused,」 and 「geographically」被賦予最高分,而候選者如「performance,」 「anchor,」or 「features」被賦予非常低的權重,使得它們不太可能被選擇為關鍵短語。

5 結論和未來工作

我們提出了一種新穎的無監督圖演算法,稱為PositionRank,它將單詞的位置和文檔中的頻率都包含在有偏PageRank中。據我們所知,我們是第一個在無監督關鍵短語提取中以全新的方式整合位置信息的工作。具體來說,與僅使用第一個位置信息的監督方法不同,我們表明,對單詞位置的整個分布進行建模優於僅使用第一個位置的模型。

我們對研究論文的三個數據集的實驗表明,我們提出的模型比成熟的基準模型能實現更好的結果,性能相對提高高達29.09%。在將來,探索PositionRank對其他類型文檔(例如網頁和電子郵件)的性能將是有趣的。

論文下載鏈接:

http://www.aclweb.org/anthology/P/P17/P17-1102.pdf

留言 點贊 發個朋友圈

我們一起探討AI落地的最後一公里

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

今日芯聲:你懂AI嗎?看大佬李開復怎麼說
今日芯聲 南大學子真幸福,你們離AI又近了一步

TAG:讀芯術 |