當前位置:
首頁 > 最新 > 首次公開!深度學習在知識圖譜構建中的應用

首次公開!深度學習在知識圖譜構建中的應用

阿里妹導讀:在智能化時代的今天,搜索引擎不僅能理解用戶檢索的信息、並總結出與搜索話題相關的內容,更在逐步構建一個與搜索結果相關的完整知識體系,讓用戶獲得意想不到的發現。神馬搜索的知識圖譜與應用團隊就在這條路上不斷探索中。

昨天,我們介紹了基於DeepDive的關係抽取方法及其在知識圖譜數據構建中應用(傳送門:知識圖譜數據構建的「硬骨頭」,阿里工程師如何拿下?)。這個方法準確率高、交互好,在單一關係的抽取任務中體現了強大的能力。今天,我們將為大家繼續分享,基於深度學習的關係抽取技術及其在神馬知識圖譜數據構建中的探索和實踐,以及業務落地過程中遇到的一些挑戰,期待與大家一起交流探討。


深度學習模型介紹

DeepDive系統在數據處理階段很大程度上依賴於NLP工具,如果NLP的過程中存在錯誤,這些錯誤將會在後續的標註和學習步驟中被不斷傳播放大,影響最終的關係抽取效果。為了避免這種傳播和影響,近年來深度學習技術開始越來越多地在關係抽取任務中得到重視和應用。本章主要介紹一種遠程監督標註與基於卷積神經網路的模型相結合的關係抽取方法以及該方法的一些改進技術。


PCNNs模型由Zeng et al.於2015提出,主要針對兩個問題提出解決方案:

針對遠程監督的wrong label problem,該模型提出採用多示例學習的方式從訓練集中抽取取置信度高的訓練樣例訓練模型。

針對傳統統計模型特徵抽取過程中出現的錯誤和後續的錯誤傳播問題,該模型提出用 piecewise 的卷積神經網路自動學習特徵,從而避免了複雜的NLP過程。

下圖是PCNNs的模型示意圖:

PCNNs模型主要包括以下幾個步驟:

實驗證明,PCNNs + 多實例學習的方法 Top N 上平均值比單純使用多示例學習的方法高了 5 個百分點。


上述模型對於每個實體對只選用一個句子進行學習和預測,損失了大量的來自其它正確標註句子的信息。為了在濾除wrong label case的同時,能更有效地利用盡量多的正確標註的句子,Lin et al. 於2016年提出了PCNNs+Attention(APCNNs)演算法。相比之前的PCNNs模型,該演算法在池化層之後,softmax層之前加入了一種基於句子級別的attention機制,演算法的示意圖如下:

除了Attention機制外,還有一些其它的輔助信息也被加入多示例學習模型來改關係抽取的質量,例如在計算實體向量的時候加入實體的描述信息(Ji et al.,2017);利用外部神經網路獲取數據的可靠性和採樣的置信度等信息對模型的訓練進行指導(Tang et al.,2017)。

下圖顯示了各模型和改進演算法的準確率和召回率的對比,其中Mintz不對遠程監督的wrong label problem做處理,直接用所有標註樣例進行訓練;MultiR和MIML是採用概率圖模型進行示例篩選的兩種多示例學習模型;PCNN+MIL是本章第一小節介紹的模型;APCNNs 在PCNN+MIL基礎上添加了attention機制;PCNNs+D在PCNN+MIL基礎上添加了對描述信息的使用;APCNNs+D在APCNNs基礎上添加了對描述信息的使用。實驗採用的是該領域評測中使用較廣泛的New York Times(NYT)數據集(Riedel et al.,2010)。


深度學習方法在圖譜構建中的應用進展

深度學習模型在神馬知識圖譜數據構建中的應用目前還處於探索階段,本章將介紹當前的工作進展和業務落地過程中遇到的一些問題。


深度學習模型較大程度依賴於token向量化的準確性。與基於DeepDive方法的語料準備相同,這裡的token切分由以詞為單位,改為以實體為單位,以NER環節識別的實體粒度為準。Word2vec生成的向量表徵token的能力與語料的全面性和語料的規模都很相關,因此我們選擇百科全量語料作為word2vec的訓練語料,各統計數據和模型參數設置如下表所示:

為了驗證詞向量訓練的效果,我們對word2vec的結果做了多種測試,這裡給出部分實驗數據。下圖所示的是給定一個實體,查找最相關實體的實驗:

以下是給定一個實體對和預測實體對的其中一個實體,計算預測實體對中另一個實體的實驗。隨機選取了五種預測關係,構造了15組給定實體對和預測實體對,預測結果如下圖所示,除了飄紅的兩個例子,其餘預測均正確:


具體應用中我們選擇採用APCNNs模型。我們在NYT標準數據集上復現了上一章提到的幾種關鍵模型,包括CNN+MIL,PCNN+MIL,CNNs(基於Attention機制的CNN模型)和APCNNs。復現結果與論文中給出的baseline基本一致,APCNNs模型的表現明顯優於其它模型。下圖是幾種模型的准召結果對比:

為了得到豐富的訓練數據,我們取知識圖譜中建設相對完善的人物、地理位置、組織機構、電影、電視、圖書等領域下的15個核心關係,如電影演員、圖書作者、公司高管、人物出生地等,對照百科全量語料,產出relation值為15個關係之一的標註正例,合計數目在千萬量級,產出無relation值標註(relation值為NA)的示例超過1億。


APCNNs模型在輔助知識圖譜數據構建中目前還處於嘗試階段。就運算能力而言,APCNNs模型相比DeepDive系統更有優勢,能在大規模語料上同時針對多個關係進行計算,且迭代更新過程無需人工校驗交互。但在業務落地過程中,我們也遇到了一些問題,總結如下:

大規模實驗耗時過長,給參數的調整和每一次演算法策略上的迭代增加了難度

目前學術界通用的測試語料是英文的NYT數據集,相同的模型應用於中文語料時,存在准召率對標困難的問題

深度學習的過程人工難以干預。假設我們要預測(楊冪,劉愷威)的婚姻關係,但從最初的基於大規模語料的詞向量生成開始,如果該語料中(楊冪,劉愷威)共現時的主導關係就不是婚姻關係,而是影視劇中的合作關係(如「該片講述楊冪飾演的夏晚晴在遭遇好友算計、男友婚變的窘境下,被劉愷威飾演的花花公子喬津帆解救,但卻由此陷入更大圈套的故事。」),或基於某些活動的共同出席關係(如「楊冪與劉愷威共同擔任了新浪廈門愛心圖書館的公益大使」),則在attention步驟中得到的關係向量就會偏向合作關係,這將導致計算包中每個句子的權值時,表達婚姻關係的句子難以獲得高分,從而導致後續學習中的偏差。

深度學習模型的結果較難進行人工評測,尤其對於知識圖譜中沒有出現的實體對,需要在大規模的中間過程矩陣中進行匹配和提取,將權重矩陣可視化為包中每個句子的得分,對計算資源和人工都有不小的消耗。


總結與展望

基於DeepDive的方法和基於深度學習的方法各有優勢和缺陷,以下從4個方面對這兩種方法進行總結和對比:

1、 語料的選取和範圍

Deepdive可適用於較小型、比較專門的語料,例如歷史人物的關係挖掘;可以針對語料和抽取關係的特點進行調整規則,如婚姻關係的一對一或一對多,如偏文言文的語料的用語習慣等。

APCNNs模型適用於大規模語料,因為attention機制能正常運行的前提是word2vec學習到的實體向量比較豐富全面。

2、 關係抽取

Deepdive僅適用於單一關係的判斷,分類結果為實體對間某一關係成立的期望值。針對不同的關係,可以運營不同的規則,通過基於規則的標註能較好地提升訓練集的標註準確率。

APCNNs模型適用於多分類問題,分類結果為relation集合中的關係得分排序。無需針對relation集合中特定的某個關係做規則運營。

3、 長尾數據

Deepdive更適用於長尾數據的關係挖掘,只要是NER能識別出的實體對,即使出現頻率很低,也能根據該實體對的上下文特徵做出判斷。

APCNNs模型需要保證實體在語料中出現的次數高於一定的閾值,如min_count>=5,才能保證該實體有word2vec的向量表示。bag中有一定數量的sentence,便於選取相似度高的用於訓練

4、 結果生成與檢測

Deepdive對輸出結果正誤的判斷僅針對單個句子,同樣的實體對出現在不同的句子中可能給出完全不同的預測結果。測試需要結合原句判斷結果是否準確,好處是有原句作為依據,方便進行人工驗證。

APCNNs模型針對特定的實體對做判斷,對於給定的實體對,系統給出一致的輸出結果。對於新數據的結果正確性判斷,需要結合中間結果,對包中被選取的句子集合進行提取和驗證,增加了人工檢驗有的難度。

在未來的工作中,對於基於DeepDive的方法,我們在擴大抓取關係數目的同時,考慮將業務實踐中沉澱的改進演算法流程化、平台化,同時構建輔助的信息增補工具,幫助減輕DeepDive生成結果寫入知識圖譜過程中的人工檢驗工作,例如,對於婚姻關係的實體對,我們可以從圖譜獲取人物的性別、出生年月等信息,來輔助關係的正誤判斷。

對於基於深度學習的方法,我們將投入更多的時間和精力,嘗試從以下幾方面促進業務的落地和模型的改進:

將已被DeepDive證明有效的某些改進演算法應用到深度學習方法中,例如根據關係相關的關鍵詞進行過濾,縮小數據規模,提高運行效率。

將計算中間結果可視化,分析attention過程中關係向量與sentence選取的關聯,嘗試建立選取結果好壞的評判機制,嘗試利用更豐富的信息獲得更準確的關係向量。

考慮如何突破預先設定的關係集合的限制,面向開放領域進行關係抽取,自動發現新的關係和知識。

探索除了文本以外其它形式數據的關係抽取,如表格、音頻、圖像等。


參考文獻

[1]. 林衍凱、劉知遠,基於深度學習的關係抽取

[2]. Daojian Zeng, Kang Liu, Yubo Chen, and Jun Zhao. 2015. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks. In EMNLP. 1753–1762.

[3]. Guoliang Ji, Kang Liu, Shizhu He, Jun Zhao. 2017. Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions. Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence

[4]. Siliang Tang, Jinjian Zhang, Ning Zhang, Fei Wu, Jun Xiao, Yueting Zhuang. 2017. ENCORE: External Neural Constraints Regularized Distant Supervision for Relation Extraction. SIGIR"17

[5]. Zeng, D.; Liu, K.; Chen, Y.; and Zhao, J. 2015. Distant supervision for relation extraction via piecewise convolutional neural networks. EMNLP.

[6]. Riedel, S.; Yao, L.; and McCallum, A. 2010. Modeling relations and their mentions without labeled text. In Machine Learning and Knowledge Discovery in Databases. Springer. 148–163.

[7]. Ce Zhang. 2015. DeepDive: A Data Management System for Automatic Knowledge Base Construction. PhD thesis.

[8]. Hoffmann, R.; Zhang, C.; Ling, X.; Zettlemoyer, L.; and Weld, D. S. 2011. Knowledge-based weak supervision for information extraction of overlapping relations. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1, 541–550. Association for Computational Linguistics.

[9]. Surdeanu, M.; Tibshirani, J.; Nallapati, R.; and Manning, C. D. 2012. Multi-instance multi-label learning for relation extraction. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 455–465. Association for Computational Linguistics.

[10]. Shingo Takamatsu, Issei Sato and Hiroshi Nakagawa. 2012. Reducing Wrong Labels in Distant Supervision for Relation Extraction. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pages 721–729

[11]. Zeng, D.; Liu, K.; Lai, S.; Zhou, G.; Zhao, J.; et al. 2014. Relation classification via convolutional deep neural network. In COLING, 2335–2344.

[12]. Ce zhang, Cheistopher Re; et al. 2017. Communications of the ACM CACM Homepage archive

Volume 60 Issue 5, Pages 93-102

[13]. Mintz, M.; Bills, S.; Snow, R.; and Jurafsky, D. 2009. Distant supervision for relation extraction without labeled data. In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2, 1003–1011. Association for Computational Linguistics.

[14]. http://deepdive.stanford.edu/

你可能還喜歡

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 阿里技術 的精彩文章:

GTS來了!阿里微服務架構下的分散式事務解決方案

TAG:阿里技術 |