當前位置:
首頁 > 科技 > 資源|谷歌發布用於有監督詞義消歧的大型語料庫

資源|谷歌發布用於有監督詞義消歧的大型語料庫

選自Google Research Blog


機器之心編譯


參與:微胖、朱思穎、蔣思源

資源|谷歌發布用於有監督詞義消歧的大型語料庫



理解特定單詞在文本中的各種意思是理解語言的關鍵。比如,句子「he will receive stock in the reorganized company」中,根據新牛津美語詞典(NOAD),我們依據上下文可以知道「stock」是指「公司企業通過發行和認購股份籌措到的資金」。但是,詞典中,從「存貨(goods in a store)」到「一種中世紀刑具」,stock 的定義有十多個。計算機演算法很難區分這些意思,過去,人們形容這一問題難度「與解決強人工智慧核心問題的難度不相上下(AI-complete)」(Navigli, 2009 Mallery 1988 )。


為了幫助解決這個難題,我們很高興發布了基於流行的 MASC 和 SemCor 數據組的詞義標註,人工標註了 NOAD 的各種詞義。我們也在發布 NOAD 詞義到 English Wordnet 的映射,研究社區更常用到這個。這是最大的全詞義標註英文語料庫發布之一。

發布地址:https://github.com/dmorr-google/word_sense_disambigation_corpora


有監督的詞義消歧


人類能很容易分辨出文本詞義之間區別的原因是人類能接觸大量常識性知識。這些常識包含世界如何運轉及其與語言之間的聯繫。舉一個機器理解困難的例子,「[stock] in a business」(在一單生意里的 stock)意味著意思與金融相關。但是,在「[stock] in a bodega」(酒窖里的 stock)中,更可能是貨架上的貨物,儘管酒窖(bodega)也是一種生意。獲取足夠的機器可加利用的知識,然後將這些知識運用到文本詞義理解上是一種挑戰。


有監督的詞義消歧(WSD)也即運用人標記的數據來構建一個機器學習系統,這個機器學習系統能夠將詞典里的某個意思分配給出現在文本中的這個單詞(與實體歧義消除不同,後者關注的是名詞,對名詞的詞義理解大多是正確的)。構建一個比不考慮文本語境,僅將單詞最常用的意思分配給單詞的監督模型更好的模型,很困難,但是,有了大量訓練數據,有監督的模型會表現非常好。


通過發布這個數據集,我們希望研究社區能提出更先進的演算法,從而機器對自然語言有更好的理解,並能支持應用如:

方便從文本自動構建資料庫,從而可以回答問題和鏈接文本中的知識。例如,理解「hemi engine」是一種自動化的機械,「locomotive engine」是屬於火車的,或者也可以是說「Kanye West is a star」意味著他是一個名人,而「Sirius is a star」意味著它是天文學客體。


消除查詢中的詞的歧義,使得「date palm」和「date night」或「web spam」和「spam recipe」等查詢可以被解讀出各自不同的含義,並且使得根據該查詢所返回的文檔具有和該查詢相同的含義。


人工標註


在我們發布的人工標註數據集中,每一個詞義標註(sense annotation)由五個人評估。為了確保高質量的語義標註,評估者首先會進行黃金標註(gold annotations)的訓練,這個訓練事先是由經驗豐富的語言學家在單獨試驗研究中標註。下圖顯示了標註者在使用我們標註工具時的工作頁面。

資源|谷歌發布用於有監督詞義消歧的大型語料庫


頁面左側列出了所有候選的字典詞義(在這個例子中是單詞「general」)。字典中的例句也會提供給標註者。在頁面右側,需要被標註單詞會在句子中突出顯示。除了將單詞鏈接到字典詞義之外,評估者還能標記如下三個異常:單詞拼寫錯誤、無上述情況(none of the above)和標註者不能決定。評估者同樣可以檢查詞的使用是不是一種隱喻,並可以留下評論。


用於此發布的數據進行詞義標註任務使用 Krippendorff s alpha 測量達到了 0.869 的評估者間可信度值(inter-rater reliability score)。在 Krippendorff s alpha 中,α >= 0.67 就可以考慮是可接受的再現性結果(reproducibility),α >= 0.80 就是很高的可再現性結果。下面列出來了標註數:


Wordnet 映射

Wordnet 地址:https://wordnet.princeton.edu/


我們也發布了兩套 NOAD 到 Wordnet 的映射。小一點的那一套,我們採用上述類似詞義標註的方法,人工映射了 2200 個單詞,大一點的那一套是演算法創造的。這些映射有助於將 Wordnet 的資源應用到這個 NOAD 語料庫中,也有助於用這套語料庫評估使用 Wordnet 構建的系統。


在這一語料庫上使用基於 LSTM 的語言模型以及半監督學習的全部研究結果,請參閱論文《Semi-supervised Word Sense Disambiguation with Neural Models》。


致謝


這一資料庫的建立離不開以下人員的幫助:Eric Altendorf、Heng Chen、Jutta Degener、Ryan Doherty、David Huynh、Ji Li、Julian Richardson 和 Binbin Ruan。

您的贊是小編持續努力的最大動力,動動手指贊一下吧!


本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

暮光之城女主角發表學術論文
不要只看論文,缺乏工程實踐才是深度學習研究的瓶頸
MinPy:劍氣雙修的武功秘籍
哈佛大學提出「片上多區域大腦」:建模大腦不同區域之間的連接
百度宣布原微軟高管陸奇加盟,任總裁兼COO

TAG:機器之心 |

您可能感興趣

中紀委副局利用辦案謀利 濫用監督權引惡果
稀有月廚,Fate HF 劇場版監督手寫大量研究間桐櫻的資料
媒體:靠有保障的程序和有力度的監督抑制亂收費
食品藥品監督管理總局告訴你,酸奶與乳酸菌飲料的區別
OpenAI"巧妙"發現無監督情感神經元,可利用文本檢測用戶情感
《鋼之鍊金術師》動畫監督吐槽:真人版電影不應全部選用日本演員
珠海關檢聯合監督銷毀進口不合格食品化妝品
銀川市市場監督管理局發布防晒類化妝品消費警示
英德市食葯監局積極開展化妝品 監督抽驗工作
阿克塞縣食品藥品監督管理局組織觀看化妝品不良反應宣傳片
監督井端義秀刪除爆料《烏冬之國》動畫內幕文章
省物價監督管理局下發通知 規範供熱價格分類
奧特系列通鑒╳本家特攝列傳:稀有生物 特技監督
寶豐縣國土資源局召開懶政怠政為官不為問題專項監督工作會
廣州食葯監督局採取措施推進美容美髮以及化妝品加工行業的整治
「破解人類識別文字之謎」對圖像中的字母進行無監督學習
看一遍人類動作就能模仿,能理解語義的谷歌機器人登上無監督學習的新高度
監督福田雄一談電影《銀魂》的創作意圖
工作單價急需合理化,動畫監督談動畫師和原畫師的工資要如何改善