卡內基梅隆大學使用主題模型,提出了基於知識型的詞義消歧方法
原文來源:arxiv
作者:Devendra Singh Chaplot、Ruslan Salakhutdinov
「雷克世界」編譯:嗯~阿童木呀、KABUDA
相信大家都知道,在自然語言處理中存在這樣一個尚待解決的問題:詞義消歧(Word Sense Disambiguation),尤其在無監督環境中具有很大的挑戰性和有用性。其中,對於任何給定文本中的所有單詞都需要在不使用任何標記數據的情況下對其進行歧義的消除。通常,WSD系統將目標單詞周圍的句子或小窗口作為消除歧義的上下文,因為它們的計算複雜度隨著上下文的大小呈指數級增長。
在本文中,我們利用主題模型的形式設計了一個WSD系統,該系統以一種與上下文中的詞數成線性關係的方式進行擴展。因此,我們的系統能夠利用整個文檔作為一個單詞的上下文,從而進行消除歧義。我們在本文中所提出的方法是主題模型Latent Dirichlet Allocation(LDA)的一個變體,其中,文檔的主題比例被同義詞集比例(synset proportions)所代替。進一步地,通過在辭彙上為同義詞集分布分配一個非均勻先驗,以及在同義詞集上為文檔分布分配一個邏輯正太先驗(logistic-normal prior)。我們在Senseval-2、Senseval-3、SemEval-2007、SemEval-2013和SemEval-2015英文全文WSD數據集上評估了我們所提出的方法,評估結果表明該,在很大程度上,我們提出的方法要優於當前最先進的無監督基於知識型的WSD系統。
可以這樣說,詞義消歧(WSD)是指將給定上下文中的一個歧義詞映射到其正確含義的任務。 在自然語言處理(NLP)中,WSD在是一個很重要的問題,一方面,它本身就是一個具有意義的系統。另一方面,對於諸如機器翻譯(Chan、Ng和Chiang 於2007年提出)、信息提取與檢索(Zhong和Ng 於2012年提出 )、以及問題回答(Ramakrishnan等人於2003年提出)等任務的發展來說,WSD系統起到了很大的推波助瀾作用。
WordNet樣本顯示了幾個同義詞集以及它們之間的關係
WSD,是一個完全基於人工智慧技術的產物(Navigli於2009年提出),經過二十多年的研究,現如今仍然是一個有待完善和提高的問題。繼Navigli之後,我們可以大致地區分監督式和基於知識型(無監督的)的方法。監督方法需要有意義的訓練數據,一般來說適用於辭彙樣本WSD任務,其中,在這些任務中系統需要對目標詞的一組限制集進行消歧處理。然而,在全詞詞義消歧任務中監督系統的性能是有局限性的,因為完整詞典中的標記數據是稀疏且難以獲得的。由於全詞詞義消歧任務更加具有挑戰性,且具有更多的實際應用,因此開發無監督的基於知識的系統是非常有意義的。這些系統只需要一個外部知識源(如WordNet),而不需要已標記的訓練數據。
全詞詞義消歧任務的一個例子
本文提出了一種用於全詞WSD任務的全新的基於知識型WSD演算法,該演算法將整個文檔作為單詞的上下文,而非是像大多數WSD系統那樣將當前語句作為上下文。為了對WSD的整體文檔進行建模,我們採用了主題模型的形式,特別是Latent Dirichlet Allocation(LDA)。我們的方法是LDA的一種變體,其中文檔的主題比例被文檔的同義詞比例所取代。我們使用一個分布在單詞上的同義詞分布的非均勻先驗來為一個同義詞集合中單詞的頻率進行建模。此外,我們通過利用邏輯正太先驗(logistics normal prior)繪製出文檔中同義詞的比例,從而對同義詞之間的關係進行建模。這使得我們的模型類似於相關的主題模型,不同之處在於我們的先驗知識是固定的而非學習來的。需要特別指出的是,這些先驗的值是通過WodNet中的知識決定的。我們使用Senseval-2、Senseval-3、SemEval-2007、SemEval-2013和SenEval-2015五個基準數據集對我們的系統進行評估,並證明我們提出的模型優於最先進的基於知識型的WSD系統。
在一個使用該提出模型進行學習的文檔中,一個以同義詞和同義詞比例分布方式分布的單詞分布的玩具示例。在文檔中,高亮標出的單詞的顏色表示它們從這些單詞中採樣得到的相應的同義詞。
該模型還克服了基於LDA及其變體的主題模型的一些局限性。首先,LDA需要將主題的數量指定為一個超參數,其中,這個超參數很難進行微調。所提出的模型不需要指定同義詞集的總數,因為同義詞集的總數等於意義儲存庫中固定的同義詞集的數目。其次,使用LDA所學習的主題常常沒有意義,因為某些主題內的單詞是不相關的。然而,同義詞集總是有意義的,因為它們只包含同義詞。在提出的方法中,通過在同義詞中使用用於單詞分布的非均勻先驗來保證這一點。
尤其是在本文中,我們提出了一個新的基於知識型的WSD系統,該系統基於一個邏輯正太主題模型(logistic normal topic model),其中包含作為其先驗的同義詞語義信息。該模型與上下文中的單詞數量呈線性關係,這使我們的系統能夠將整個文檔作為上下文來消除歧義,並且,評估結果表明,我們的方法在一組基準數據集上的性能標新要優於最先進的基於知識型的WSD系統。
本文所提出的方法的圖形模型表示
在未來,我們的一個研究方向是將這一模型用到監督式WSD系統中。這可以通過使用來自SemCor語料庫的感應標籤,將其作為監督主題模型中的訓練數據來完成,這和Mcauliffe和 Blei在2008年提出的一個模型相類似。另一種可能是將另一個級別添加到文檔生成過程的層次結構中。這將使我們能夠回歸主題概念,然後定義特定主題的意義分布。同樣的模型也可以擴展至其他問題,如:命名實體消歧(named-entity disambiguation)。


TAG:雷克世界 |