當前位置:
首頁 > 最新 > CMU基於話題模型,用整篇文檔解決詞義消歧問題

CMU基於話題模型,用整篇文檔解決詞義消歧問題

來源:arXiv

編譯:Bing

詞義消歧(WSD)的目的是將語境中有歧義的詞映射到正確含義。WSD在自然語言處理(NLP)中是一個重要問題,不僅僅是因為它是一項先進的技術,而且它的發展對機器翻譯、信息提取和檢索以及回答問題等都有促進作用。

雖然目前我們可以粗略地區分監督式和無監督方法,但是監督式方法需要帶有注釋的訓練數據,一般適用於辭彙樣本WSD任務,系統需要辨別有限的目標辭彙。然而,監督式系統的性能在全字(all-word)的任務中是有限制的,因為完整的詞典標記數據非常分散,並且難以獲取。由於全字的WSD任務更難且應用場景更多,因此開發無監督的基於知識的系統是非常關鍵的。

於是,卡內基梅隆大學的研究人員們為全字的任務提出了一種新穎的基於知識的WSD演算法,將整篇文本,而非詞語所在的某句話,當做該詞的語境。另外,他們還利用隱含狄利克雷分布(LDA)的變體,對整個WSD文檔建模。

WordNet

大多數WSD系統使用詞義庫(sense repository)獲得每個單詞所有的意思。WordNet是英語語言綜合辭彙資料庫,通常用作WSD系統中的詞義庫。它為語言中的每個實詞(名詞、動詞、形容詞、副詞)提供所有可能的意義,並通過POS標籤為它們分類。例如,「cricket」作為名詞有兩種可能的意思:「蟋蟀」、「板球」。作為動詞,「cricket」還可以表示「打板球」。此外,WordNet還將同義詞集合起來,生成同義片語(synset),每個synset還包含注釋和示例。

WordNet還包含了不同同義片語之間不同類型的語義關係信息,例如上下位關係、部分-整體關係等。圖一展示了WordNet的一個子集,圖中節點表示同義片語,線條表示它們之間的語義關係。

圖一

具體方法

在尋找解決方法之前,我們需要明確問題。研究人員們用具體的例子來闡釋了這一問題,例如:

They were troubled by insects while playing cricket.

這句話中,每個實詞(wi)的意思xi可以從詞義庫(yi)中找到ki個可能的意思。具體看圖二。

圖二

W5「cricket」一詞,既能表示蟋蟀,又能表示板球。在這句話中,顯然第二個解釋更恰當。這樣在文本中為每個實詞找到正確的意思就是全字WSD的目標。

語義

接下來,研究人員介紹了他們所提出的方法的基本語義思想,以及它們是如何被納入到模型之中的。

文本語境

我們知道,一篇文章中的每個句子都是相互關聯的。除了單詞所在的句子之外,其他地方的單詞也有助於詞義消歧。例如:

He forgot the chips at the counter.

這裡「chips」一詞可以指「薯片」、「微型晶元」或者「撲克牌的籌碼」。如果不看上下文,就很難消除歧義。在這篇文章中,出現了「賭場」、「賭徒」等詞語,所以上文中的「chips」很有可能指的是「籌碼」。

話題模型

為了用整篇文章作為某個詞的語境,研究人員希望對此進行建模,而符合這一目的的只有話題模型(topic models),其中最基礎的例子就是隱含狄利克雷分布(LDA)。

當有多義詞出現時,LDA可以分辨出不同意思。但是由於WSD中的每個詞是要展現出來的,而LDA無法做到這一點,所以研究人員對其進行了改進。

同義片語分布

由於不同的詞典規模不同,研究人員在LDA的模型中添加了可交換的狄利克雷先驗(Dirichlet prior)。在狄利克雷分布中,參數向量中的每個元素地位都相同。但是這在同義片語中卻不適用。例如,表示「(比賽或履行的)目的地」的單詞有:「goal」、「destination」、「finish」等。另外,其他片語中,有很多同義詞的使用頻率高於其他詞。例如,表示「參與者或某項運動的老手」一詞中,「player」就比「participant」更常用。所以,研究人員決定對同義片語的分布改為非統一先驗(non-uniform prior)。

同義片語的文本分布

LDA模型使用狄利克雷分布作為文本的話題模型。在這一分布下,話題模型中的元素幾乎是獨立的,這就會導致模型做出不真實的假設,即現有的話題與另外的話題沒有關聯。不過,在這一項目中,同義片語是相互關聯的。

例如,在表示「傾斜的土地」一詞中,「bank」比「river」出現的頻率更高。但是在表示「財務狀況」的意思里,bank出現的頻率就比其他詞低了。於是,研究人員將各同義片語之間的聯繫用邏輯正態分布(logistic normal distribution)表示。

提出模型

1. 對於每個同義片語,s∈

(a)提取詞的分布βs~Dir(ηs)

2. 對於每個文本,m∈

(a)選取αm~N(μ, Σ)

(b)將αm轉換成同義片語部分θm=f(αm)

(c)對於文本中的每個詞n∈

i. 提取同義片語Zmn~Mult(θm)

ii.從指定片語中提取單詞Wmn~Mult(βZmn)

其中softmax函數為:

圖三是模型的生成過程:

圖三

圖四是同義片語中的詞語分布,以及模型生成的同義片語在文本中的分布。

圖四

實驗與結果

為了評估該模型,研究人員利用英語語言WSD的基準資料庫SensEval-2、SensEval-3、SemEval-2007、SemEval-2013以及SemEval-2015。下表是WSD-TM與無監督方法以及監督式方法的F1分數結果比較,每一欄中最高分均加粗表示:

相比現有的其他技術,WSD的總體F1分數為66.9,具有明顯優勢。

另外,研究人員還比較了不同詞性的F1分數。他們所提出的模型完勝其他無監督模型。

結語

用整篇文檔作為詞義消歧的語境到底有什麼好處呢?以下就用一個例子來說明。

再回過頭看圖三中的那段話,我們能從高亮的詞語中推斷出這是一段有關生物的文字,在這之中的大多數詞語都是單義同義詞(monosemous)。然而我們注意到其中的「cell」一詞在WordNet中擁有七種不同的意思:

而在下表中,可以看到「cell」的正確意思「cell#2」與其他三個單詞「scientist#1」、「researcher#1」和「protein#1」的相似度最高。在整個文檔中,「cell」出現了21次,但是除了這三個單詞之外,其他幾處語境均無法準確判斷「cell」的意思是什麼。

原文地址:arxiv.org/abs/1801.01900

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 全球大搜羅 的精彩文章:

1970年的皮草、美人與傳奇

TAG:全球大搜羅 |