AAAI、IJCAI和ACL錄用三名清華本科生成果，華人NLP最傑出HowNet成功融入DL模型

新聞 01-11

新智元推薦

來源：知乎

作者：劉知遠

編輯：常佩琦

【新智元導讀】HowNet是董振東先生、董強先生父子畢數十年之功標註的大型語言知識庫。文章分別探索了辭彙表示學習、新詞義原推薦、和詞典擴展等任務上，驗證了HowNet與深度學習模型融合的有效性。

什麼是HowNet

HowNet是董振東先生、董強先生父子畢數十年之功標註的大型語言知識庫，主要面向中文（也包括英文）的辭彙與概念[1]。

HowNet秉承還原論思想，認為辭彙/詞義可以用更小的語義單位來描述。這種語義單位被稱為「義原」（Sememe），顧名思義就是原子語義，即最基本的、不宜再分割的最小語義單位。在不斷標註的過程中，HowNet逐漸構建出了一套精細的義原體系（約2000個義原）。HowNet基於該義原體系累計標註了數十萬辭彙/詞義的語義信息。

例如「頂點」一詞在HowNet有兩個代表義項，分別標註義原信息如下，其中每個「xx|yy」代表一個義原，「|」左邊為英文右邊為中文；義原之間還被標註了複雜的語義關係，如host、modifier、belong等，從而能夠精確地表示詞義的語義信息。

在NLP領域知識庫資源一直扮演著重要角色，在英語世界中最具知名度的是WordNet，採用同義詞集（synset）的形式標註辭彙/詞義的語義知識。HowNet採取了不同於WordNet的標註思路，可以說是我國學者為NLP做出的最獨具特色的傑出貢獻。HowNet在2000年前後引起了國內NLP學術界極大的研究熱情，在辭彙相似度計算、文本分類、信息檢索等方面探索了HowNet的重要應用價值[2,3]，與當時國際上對WordNet的應用探索相映成趣。

深度學習時代HowNet有什麼用

進入深度學習時代，人們發現通過大規模文本數據也能夠很好地學習辭彙的語義表示。例如以word2vec[4]為代表的詞表示學習方法，用低維（一般數百維）、稠密、實值向量來表示每個辭彙/詞義的語義信息，又稱為分散式表示（distributed representation，或embedding），利用大規模文本中的辭彙上下文信息自動學習向量表示。我們可以用這些向量方便地計算辭彙/詞義相似度，能夠取得比傳統基於語言知識庫的方法還好的效果。也正因為如此，近年來無論是HowNet還是WordNet的學術關注度都有顯著下降，如以下兩圖所示。

中國期刊網（CNKI)統計HowNet學術關注度變化趨勢

Semantic Scholar統計WordNet相關論文變化趨勢

是不是說，深度學習時代以WordNet、HowNet為代表的語言知識庫就毫無用處了呢？實際並非如此。實際上自word2vec剛提出一年後，我們[5]以及ACL 2015最佳學生論文[6]等工作，都發現將WordNet知識融入到詞表示學習過程中，能夠有效提升詞表示效果。

雖然目前大部分NLP深度學習模型尚沒有為語言知識庫留出位置，但正由於深度學習模型data-hungry、black-box等特性，正使其發展遭遇不可突破的瓶頸。回顧最開始提及的張鈸院士的觀點，我們堅信AI未來的科學突破是建立一種同時基於知識和數據的AI系統。看清楚了這個大形勢，針對NLP深度學習模型的關鍵問題就在於，利用什麼知識，怎樣利用知識。

在自然語言理解方面，HowNet更貼近語言本質特點。自然語言中的辭彙是典型的符號信息，這些符號背後蘊藏豐富的語義信息。可以說，辭彙是最小的語言使用單位，卻不是最小的語義單位。HowNet提出的義原標註體系，正是突破辭彙屏障，深入了解辭彙背后豐富語義信息的重要通道。

在融入學習模型方面，HowNet具有無可比擬的優勢。在WordNet、同義詞詞林等知識庫中，每個詞的詞義是通過同義詞集（synset）和定義（gloss）來間接體現的，具體每個詞義到底什麼意義，缺少細粒度的精準刻畫，缺少顯式定量的信息，無法更好為計算機所用。而HowNet通過一套統一的義原標註體系，能夠直接精準刻畫詞義的語義信息；而每個義原含義明確固定，可被直接作為語義標籤融入機器學習模型。

也許是由於HowNet採用了收費授權的政策，並且主要面向中文世界，近年來HowNet知識庫有些淡出人們的視野。然而，對HowNet逐漸深入理解，以及最近我們在HowNet與深度學習模型融合的成功嘗試，讓我開始堅信，HowNet語言知識體系與思想必將在深度學習時代大放異彩。

我們的嘗試

最近我們分別探索了辭彙表示學習、新詞義原推薦、和詞典擴展等任務上，驗證了HowNet與深度學習模型融合的有效性。

1. 融合義原知識的辭彙表示學習

論文：Yilin Niu, Ruobing Xie, Zhiyuan Liu, Maosong Sun. Improved Word Representation Learning with Sememes. In ACL, 2017.

下載：http://nlp.csai.tsinghua.edu.cn/~lzy/publications/acl2017_sememe.pdf源碼：https://github.com/thunlp/SE-WRL

我們考慮將詞義的義原知識融入辭彙表示學習模型中。在該工作中，我們將HowNet的義原標註信息具象化為如下圖所示的word-sense-sememe結構。需要注意的是，為了簡化模型，我們沒有考慮詞義的義原結構信息，即我們將每個詞義的義原標註看做一個無序集合。

HowNet義原標註知識的word-sense-sememe結構示意圖

基於word2vec中的Skip-Gram模型，我們提出了SAT（sememe attention over target model）模型。與Skip-Gram模型只考慮上下文信息相比，SAT模型同時考慮單詞的義原信息，使用義原信息輔助模型更好地「理解」單詞。具體做法是，根據上下文單詞來對中心詞做詞義消歧，使用attention機制計算上下文對該單詞各個詞義（sense）的權重，然後使用sense embedding的加權平均值表示單詞向量。在詞語相似度計算和類比推理兩個任務上的實驗結果表明，將義原信息融入辭彙表示學習能夠有效提升詞向量性能。

SAT（Sememe Attention over Target Model）模型示意圖

2. 基於辭彙表示的新詞義原推薦

論文：Ruobing Xie, Xingchi Yuan, Zhiyuan Liu, Maosong Sun. Lexical Sememe Prediction via Word Embeddings and Matrix Factorization. In IJCAI, 2017.

下載：http://nlp.csai.tsinghua.edu.cn/~lzy/publications/ijcai2017_sememe.pdf源碼：https://github.com/thunlp/Sememe_prediction

在驗證了分散式表示學習與義原知識庫之間的互補關係後，我們進一步提出，是否可以利用辭彙表示學習模型，對新詞進行義原推薦，輔助知識庫標註工作。為了實現義原推薦，我們分別探索了矩陣分解和協同過濾等方法。

矩陣分解方法首先利用大規模文本數據學習單詞向量，然後用已有詞語的義原標註構建「單詞-義原」矩陣，通過矩陣分解建立與單詞向量匹配的義原向量。當給定新詞時，利用新詞在大規模文本數據得到的單詞向量推薦義原信息。協同過濾方法則利用單詞向量自動尋找與給定新詞最相似的單詞，然後利用這些相似單詞的義原進行推薦。義原推薦的實驗結果表明，綜合利用矩陣分解和協同過濾兩種手段，可以有效進行新詞的義原推薦，並在一定程度上能夠發現HowNet知識庫的標註不一致現象。該技術將有利於提高HowNet語言知識庫的標註效率與質量。

3. 基於辭彙表示和義原知識的詞典擴展

論文：Xiangkai Zeng, Cheng Yang, Cunchao Tu, Zhiyuan Liu, Maosong Sun. Chinese LIWC Lexicon Expansion via Hierarchical Classification of Word Embeddings with Sememe Attention. In AAAI, 2018.

下載：http://nlp.csai.tsinghua.edu.cn/~lzy/publications/aaai2018_cliwc.pdf源碼：thunlp/Auto_CLIWC

最近，我們又嘗試了利用詞語表示學習與HowNet知識庫進行詞典擴展。詞典擴展任務旨在根據詞典中的已有詞語，自動擴展出更多的相關詞語。該任務可以看做對詞語的分類問題。我們選用在社會學中享有盛名的LIWC詞典（Linguistic Inquiry and Word Count）中文版來開展研究。LIWC中文版中每個單詞都被標註層次化心理學類別。我們利用大規模文本數據學習每個詞語的分散式向量表示，然後用LIWC詞典單詞作為訓練數據訓練分類器，並用HowNet提供的義原標註信息構建sememe attention。實驗表明，義原信息的引入能夠顯著提升單詞的層次分類效果。

基於Sememe Attention的詞典擴展模型

ps. 值得一提的是，這三份工作都是本科生（牛藝霖、袁星馳、曾祥楷）為主完成的，模型方案都很簡單，但都是第一次投稿就被ACL、IJCAI和AAAI錄用，也可以看出國際學術界對於這類技術路線的認可。

未來展望

以上介紹的三項工作只是初步驗證了深度學習時代HowNet語言知識庫在某些任務的重要作用。以HowNet語言知識庫為代表的人類知識與以深度學習為代表的數據驅動模型如何深度融合，尚有許多重要的開放問題亟待探索與解答。我認為以下幾個方向深具探索價值：

1.目前的研究工作仍停留在詞法層面，對HowNet知識的應用亦非常有限。如何在以RNN/LSTM為代表的語言模型中有效融合HowNet義原知識庫，並在自動問答、機器翻譯等應用任務中驗證有效性，具有重要的研究價值。是否需要考慮義原標註的結構信息，也值得探索與思考。

2. 經過幾十年的精心標註，HowNet知識庫已有相當規模，但面對日新月異的信息時代，對開放域辭彙的覆蓋度仍存在不足。需要不斷探索更精準的新詞義原自動推薦技術，讓計算機輔助人類專家進行更及時高效的知識庫標註工作。此外，HowNet義原知識庫規模宏大、標註時間跨度長，難免出現標註不一致現象，這將極大影響相關模型的效果，需要探索相關演算法，輔助人類專家做好知識庫的一致性檢測和質量控制。

3. HowNet知識庫的義原體系是專家在不斷標註過程中反思總結的結晶。但義原體系並非一成不變，也不見得完美無瑕。它應當隨時間變化而演化，並隨語言理解的深入而擴展。我們需要探索一種數據驅動與專家驅動相結合的手段，不斷優化與擴充義原體系，更好地滿足自然語言處理需求。

總之，HowNet知識庫是進入深度學習時代後被極度忽視的一片寶藏，它也許會成為解決NLP深度學習模型諸多瓶頸的一把鑰匙。在深度學習時代用HowNet搞事情，廣闊天地，大有可為！

參考文獻

知網官方介紹。

劉群, 李素建. 基於《知網》的辭彙語義相似度計算. 中文計算語言學 7, no. 2 (2002): 59-76.

朱嫣嵐, 閔錦, 周雅倩, 黃萱菁, 吳立德. 基於 HowNet 的辭彙語義傾向計算. 中文信息學報 20, no. 1 (2006): 16-22.

Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg S. Corrado, and Jeff Dean. Distributed representations of words and phrases and their compositionality. In NIPS, pp. 3111-3119. 2013.

Chen, Xinxiong, Zhiyuan Liu, and Maosong Sun. A unified model for word sense representation and disambiguation. In EMNLP, pp. 1025-1035. 2014.

Rothe, Sascha, and Hinrich Schütze. Autoextend: Extending word embeddings to embeddings for synsets and lexemes. In ACL, 2015.

Yilin Niu, Ruobing Xie, Zhiyuan Liu, Maosong Sun. Improved Word Representation Learning with Sememes. In ACL, 2017.

Ruobing Xie, Xingchi Yuan, Zhiyuan Liu, Maosong Sun. Lexical Sememe Prediction via Word Embeddings and Matrix Factorization. In IJCAI, 2017.

Xiangkai Zeng, Cheng Yang, Cunchao Tu, Zhiyuan Liu, Maosong Sun. Chinese LIWC Lexicon Expansion via Hierarchical Classification of Word Embeddings with Sememe Attention. In AAAI, 2018.

加入社群

新智元AI技術+產業社群招募中，歡迎對AI技術+產業落地感興趣的同學，加小助手微信號: aiera2015_1 入群；通過審核後我們將邀請進群，加入社群後務必修改群備註（姓名-公司-職位；專業群審核較嚴，敬請諒解）。

此外，新智元AI技術+產業領域社群(智能汽車、機器學習、深度學習、神經網路等)正在面向正在從事相關領域的工程師及研究人員進行招募。

加入新智元技術社群共享AI+開放平台

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

TAG:新智元 |