知識圖譜的發展概述

最新 10-16

作者:哈工大SCIR博士生薑天文

「知識圖譜（Knowledge Graph）」的概念由Google公司在2012年提出[1]，是指其用於提升搜索引擎性能的知識庫。與近年來其他學者相同，本文中的「知識圖譜」泛指知識庫項目，而非特指Google的知識圖譜項目。

知識圖譜的出現是人工智慧對知識需求所導致的必然結果，但其發展又得益於很多其他的研究領域，涉及專家系統、語言學、語義網、資料庫，以及信息抽取等眾多領域，是交叉融合的產物而非一脈相承。

圖1 多領域共同促進知識圖譜發展

知識圖譜的早期發展

早在上個世紀70年代，專家系統（Expert Systems）作為人工智慧的重要分支，是指利用知識和推理過程來解決那些藉助人類專家知識才能得已解決的問題的計算機程序[2]。八十年代，專家系統的發展激增，日本的五代機項目就是在這期間開始的，專家系統是其核心部分。專家系統一般由兩部分組成：知識庫與推理引擎。人類專家提供知識，再將這種顯式的知識映射並存儲到知識庫中用來推理。

Cyc是這一期間較為出色的項目[3]，由Douglas Lenat在1984年設立，旨在收集生活中常識知識並將其編碼集成到一個全面的本體知識庫。Cyc知識庫中的知識使用專門設計的CycL進行表示。同其他專家系統一樣，Cyc不僅包括知識，而且提供了非常多的推理引擎，支持演繹推理和歸納推理。目前Cyc知識庫涉及50萬條概念的500萬條常識知識。OpenCyc是其開放出來免費供大眾使用的部分知識，包括24萬條概念的約240萬條常識知識。

對辭彙的理解是解讀自然語言的關鍵，語言學家所創造的詞典為人類而非機器的閱讀提供了便利，雖然有電子詞典的存在，但機器仍無法很好的從中獲取辭彙含義。1985年，普林斯頓大學認識科學實驗室在心理學教授喬治·A·米勒的指導下開始建立和維護名為WordNet的英語字典[4]，旨在為詞典信息和現代計算提供更加有效的結合，為計算機程序提供可讀性較強的在線辭彙資料庫。在WordNet中，名詞、動詞、形容詞以及副詞被按照認知上的同義詞分組，稱為synsets，每一個synset表徵一個確定的概念。synset之間通過概念語義以及辭彙關係鏈接。在漢語中，類似的典型代表有《同義詞詞林》[15]及其擴展版[16]、知網（HowNet）[17]等，都是從語言學的角度，以概念為最基本的語義單元構建起來的可以被計算機處理的漢語詞典。

這些早期的知識圖譜都是利用相關領域專家進行人工構建，具有很高的準確率和利用價值，但是其構建過程耗時耗力而且存在覆蓋性較低的問題。

鏈接數據與基於百科知識的知識圖譜構建

1989年萬維網的出現，為知識的獲取提供了極大的方便，1998年，萬維網之父蒂姆·伯納斯·李再次提出語義網（Semantic Web），其初衷是讓機器也同人類一樣可以很好地獲取並使用知識[5,6,7]。不同於人工智慧中訓練機器使之擁有和人類一樣的認知能力，語義網直接向機器提供可直接用於程序處理的知識表示[5]。但語義網是一個較為宏觀的設想並且其設計模型是「自頂向下」的，導致其很難落地，學者們逐漸將焦點轉向數據本身。2006年，伯納斯·李提出鏈接數據（Linked Data）的概念，鼓勵大家將數據公開並遵循一定的原則（2006年提出4條原則，2009年精簡為3條原則）將其發布在互聯網中[8,9]，鏈接數據的宗旨是希望數據不僅僅發佈於語義網中，而需要建立起數據之間的鏈接從而形成一張巨大的鏈接數據網。其中，最具代表性的當屬2007年開始運行的DBpedia項目[10]，是目前已知的第一個大規模開放域鏈接數據。

DBpdia項目最初是由柏林自由大學和萊比錫大學的學者發起的，其初衷是緩解語義網當時面臨的窘境，第一份公開數據集在2007年時發布，通過自由授權的方式允許他人使用。Leipzig等學者[10]認為在大規模網路信息的環境下傳統「自上而下」地在數據之前設計本體是不切實際的，數據及其元數據應當隨著信息的增加而不斷完善。數據的增加和完善可以通過社區成員合作的方式進行，但這種方式涉及數據的一致性、不確定性，以及隱式知識的統一表示等諸多問題。Leipzig等人[10]認為探尋這些問題最首要並高效的方式就是提供一個內容豐富的多元數據語料，有了這樣的語料便可以極大推動諸如知識推理、數據的不確定管理技術，以及開發面向語義網的運營系統。朝著鏈接數據的構想，DBpedia知識庫利用語義網技術，如資源描述框架（RDF）[18]，與眾多知識庫（如WordNet、Cyc等）建立鏈接關係，構建了一個規模巨大的鏈接數據網路。

圖2 以DBpedia為核心的鏈接數據網路

2001年，一個名為維基百科（Wikipedia）的全球性多語言百科全書協作計劃開啟[11]，其宗旨是為全人類提供自由的百科全書，在短短几年的時間裡利用全球用戶的協作完成數十萬詞條（至今擁有上百萬詞條）知識。維基百科的出現推動了很多基於維基百科的結構化知識的知識庫的構建，DBpedia[10]、Yago[12]等都屬於這一類知識庫。

Yago是由德國馬普研究所於2007年開始的項目，針對當時的應用僅使用單一源背景知識的情況，建立了一個高質量、高覆蓋的多源背景知識的知識庫。前面介紹的專家構建的WordNet擁有極高的準確率的本體知識，但知識覆蓋度僅限於一些常見的概念或實體；相比之下，維基百科蘊含豐富的實體知識，但維基百科多提供的概念的層次結構類似標籤結構並不精確，直接用於本體構建並不適合。Yago的主要思路是將WordNet與維基百科二者的知識結合，即利用WordNet的本體知識補充維基百科中實體的上位詞知識，從而獲取大規模高質量、高覆蓋的知識庫。截至目前，Yago擁有超過1千萬實體的1.2億條事實知識，同時近些年也構建起了與其他知識庫的鏈接關係。

DBpedia主要通過社區成員來定義和撰寫準確的抽取模版，從維基百科中抽取結構化信息（如，infobox）構建大規模知識庫，另外本體（即知識庫的元數據、schema）的構建也是通過社區成員合作完成的。由於維基百科是社區撰寫，其知識表達難免有不一致的情況，DBpedia利用mapping技術與抽取模版來實現知識描述的統一與一致性。另外，為了實現知識的更新與擴增，DBpedia開發DBpediaLive來保持與維基百科的同步。在2016年發行的版本中，DBpedia擁有超過6百萬實體及其數十億事實知識，其中人工構建的本體庫包含760種類別信息。同時，DBpedia擁有大量的跨語言知識，共擁有除英語外的66億其他語言事實知識。

2007年，Freebase[13]開始構建，類似維基百科，其內容主要來自其社區成員的貢獻，但與維基百科最大的不同之處在於Freebase中都是結構化的知識，在維基百科中人們編輯的是文章，而在Freebase中編輯的是知識。在Freebase中，用戶是其主要核心，除了對實體的編輯，用戶也參與本體庫的構建、知識的校對，以及與其他知識庫的鏈接工作。除人工輸入知識，Freebase也主動導入知識，如維基百科的結構化知識。Freebase擁有大約2千萬實體，目前被Google公司收購，Freebase的API服務已經關閉但仍提供數據的下載。

2012年，考慮到維基百科中大部分的知識都是非結構組織起來的，帶來諸多問題（如：無法對知識進行有效的搜索與分析，進而知識無法得到很好的重用，甚至存在知識的不一致性的現象），維基媒體基金會推出Wikidata項目[14]，一個類似於Freebase的大規模社區成員合作知識哭，旨在用一種全新的方式管理知識以克服以上的存在於維基百科中的問題。

以上所介紹的知識圖譜都是基於英文語言的，即使是多語言知識圖譜也是以英文為主語言，其他語言知識是用過跨語言知識（如，語言間鏈接（ILLs）、三元組對齊（TWA））鏈接得到。近些年，國內推出了大量以中文為主語言的知識圖譜，它們主要都是基於百度百科和維基百科的結構化信息構建起來的。如上海交通大學的zhishi.me[19]、清華大學的XLore[20]、復旦大學的CN-pedia[21]。2017年，由國內多所高校發起cnSchema.org項目[23]，旨在利用社區力量維護開放域知識圖譜的Schema標準。

基於自由文本的開放域知識圖譜構建

上述介紹的知識圖譜的構建方式包括人工編輯和自動抽取，但自動抽取方法主要是基於在線百科中結構化信息而忽略了非結構化文本，而互聯網中大部分的信息恰恰是以非結構化的自由文本形式呈現。與鏈接數據發展的同期，很多基於信息抽取技術的知識獲取方法被提出，用以構建基於自由文本的開放域知識圖譜。

2007年，華盛頓大學Banko等人[24]率先提出開放域信息抽取（OIE），直接從大規模自由文本中直接抽取實體關係三元組，即頭實體、關係指示詞，以及尾實體三部分，類似於語義網中RDF規範的SPO結構。在OIE提出之前，也有很多面向自由文本的信息抽取被提出，但這些方法主要的思路都是為每個目標關係訓練相應的抽取器。這類傳統的信息抽取方法在面對互聯網文本中海量的關係類別時無法高效工作，即為每個目標關係訓練抽取器時不現實的，更為嚴重的是很多情況下面對海量的網路文本我們無法事先明確關係的類型。OIE通過直接識別關係片語（relation phrases）也稱關係指示詞，即顯式表證實體關係的片語，來抽取實體關係。基於OIE的指導思想，華盛頓大學陸續推出TextRunner[24]、Reverb[25]、OLLIE[26]等基於自由文本的開放域三元組抽取系統；以及卡耐基梅隆大學的NELL系統[27,29]、德國馬普研究中心的PATTY等[28]。這些系統有的需要自動構造標註的訓練語料，進而從中提取關係模版或訓練分類器；有的則依據語法或句法特徵直接從分析結果中抽取關係三元組。接下來，本文將簡要介紹下具有代表性的Reverb和NELL系統的實現思想。

Reverb針對之前的OIE系統中存在的兩個問題：不連貫抽取與信息缺失抽取，提出句法約束：對於多詞語關係片語，必須以動詞開頭、以介詞結束，並且是由句子中毗鄰的單片語成。該約束可以有效緩解以上兩個問題造成的抽取失敗。進一步，為了避免由句法約束帶來的冗長的並且過於明確的關係指示詞，Reverb引入了啟發式的詞法約束。總的來說，Reverb提出了兩個簡單卻高效的約束，在面向英文自由文本的開放域知識抽取中取得了不錯的效果，很具啟發意義。

never-ending learning被定義為是一種不同於傳統的機器學習方式[29]，通過不斷地閱讀獲取知識，並不斷提升學習知識的能力以及利用所學知識進行推理等邏輯思維。NELL就是一種這樣的智能體，其任務是學習如何閱讀網頁以獲取知識。

NELL的輸入有：

·定義了類別和二元關係的初始本體庫；

·對於每個類別和關係的訓練種子數據；

·網頁數據（從預先準備好的網頁集合中獲取、每天從Google搜索API獲取）；

·偶爾的人工干預，

NELL每天24小時不停歇的進行如下操作：

·從網頁中閱讀（抽取）知識事實用以填充知識庫，並移除之前存在於知識庫中不正確知識事實，每個知識具有一定的置信度以及參考來源；

·學習如何比前一天更好地閱讀（抽取）知識事實，

NELL從2010年1月開始進行上述閱讀過程，目前所產生的知識庫已經擁有超過8千萬的相互鏈接的事實，以及上百萬學習到的短語。

圖3 NELL knowledge fragment

自動構建的開放域中文實體知識圖譜——《大詞林》

上述所介紹的OIE系統大多專註於對開放域實體關係三元組的抽取，但忽略了對於知識圖譜不可或缺的同時也是至關重要的本體庫的構建，即知識圖譜元數據或稱為Schema的構建，是為三元組賦以語義的關鍵。2014年，由哈爾濱工業大學社會計算與信息檢索研究中心發起的《大詞林》項目，面向包括自由文本的多信息源對實體的類別信息進行自動抽取並層次化，進而實現對實體上下位關係體系的自動構建，而上下位關係體系正是本體庫的核心組成之一。

《大詞林》的構建不需要領域專家的參與，而是基於多信息源自動獲取實體類別並對可能的多個類別進行層次化，從而達到知識庫自動構建的效果。同時也正是由於《大詞林》具有自動構建能力，其數據規模可以隨著互聯網中實體詞的更新而擴大，很好地解決了以往的人工構建知識庫對開放域實體的覆蓋程度極為有限的問題。

另外，相比以往的類別體系知識庫，《大詞林》中類別體系的結構也更加靈活。如《同義詞詞林（擴展版）》中每個實體具有具備五層結構，其中第四層僅有代碼表示，其餘四層由代碼和詞語表示，而《大詞林》中類別體系結構的層數不固定，依據實體詞的不同而動態變化，如「哈工大」一詞有7層之多，而「中國」一詞有4層；另外，《大詞林》中的每一層都是用類別詞或實體詞表示。

圖4 《大詞林》中「哈工大」的類別體系圖（左）和「中國」的類別體系圖（右）

自2014年11月27日上線，《大詞林》不斷添加中文實體及其層次化類別信息，自動構建開放域實體知識庫。目前，《大詞林》中包括約900萬實體、約17萬類別；平均每個命名實體有1.77個不同粒度的優質類別；上下位關係超過1千萬對，其中實體與上位詞之間的上下位關係與上位詞之間的上下位關係準確率均達到90%以上。

參考文獻

[1] Singhal A. Introducing the knowledgegraph: things, not strings[J]. Official google blog, 2012.

[2] Feigenbaum E A. Expert systems in the1980s[J]. State of the art report on machine intelligence.Maidenhead:Pergamon-Infotech,1981.

[3] Lenat D B, Prakash M, Shepherd M. CYC:Using common sense knowledge to overcome brittleness and knowledge acquisition bottlenecks[J]. AI magazine, 1985, 6(4): 65.

[4] Miller G A. WordNet: a dictionary browser[J]. Information in Data, 1985: 25-28.

[5] Berners-Lee T. Semantic web roadmap[J]. 1998.

[6] Berners-Lee T, Hendler J, Lassila O.The semantic web[J]. Scientific american, 2001, 284(5): 28-37.

[7] Shadbolt N, Berners-Lee T, Hall W. Thesemantic web revisited[J]. IEEE intelligent systems, 2006, 21(3): 96-101.

[8]Berners-Lee T.Linked data-designissues[J]. http://www.w3.org/DesignIssues/LinkedData.html, 2006.

[9] Berners-Lee T. The next web[J]. TED.com, 2009.

[10] Auer S, Bizer C, Kobilarov G, et al.Dbpedia: A nucleus for a web of open data[J]. The semantic web, 2007: 722-735.

[11] Wales J, Sanger L. Wikipedia: The free encyclopedia[J]. Accessed via

http://en.wikipedia.org/wiki/Main_Page (27 November 2011), 2001.

[12] Suchanek F M, Kasneci G, Weikum G.Yago: a core of semantic knowledge[C] //Proceedings of the 16th international conference on World Wide Web. ACM, 2007: 697-706.

[13] Bollacker K, Cook R, Tufts P.Freebase: A shared database of structured general human knowledge[C]//AAAI.2007, 7: 1962-1963.

[14] Vrande?i? D. Wikidata: a new platformfor collaborative data collection[C] //Proceedings of the 21st International Conference on World Wide Web. ACM, 2012: 1063-1064.

[15]梅家駒.同義詞詞林[M].上海辭書出版社,1983.

[16]《同義詞詞林（擴展版）》：https://www.ltp-cloud.com/download/

[18] Swick R R. Resource Description Framework (RDF) Model and Syntax Specification W3C Recommendation[J]. W3c Recommendation World Wide Web Consortium, 1999.

[19] Niu, X.; Sun, X.; Wang, H.; Rong, S.;Qi, G.; and Yu, Y. 2011. Zhishi. me-weaving chinese linking open data. TheSemantic Web–ISWC 2011 205–220.

[20] Wang, Z.; Li, J.; Wang, Z.; Li, S.;Li, M.; Zhang, D.; Shi, Y.; Liu, Y.; Zhang, P.; and Tang, J. 2013. Xlore: Alarge- scale english-chinese bilingual knowledge graph. In Pro- ceedings of the 2013th International Conference on Posters & Demonstrations Track-Volume1035, 121–124. CEUR- WS. org.

[21] Xu, B.; Xu, Y.; Liang, J.; Xie, C.;Liang, B.; Cui, W.; and Xiao, Y. 2017. Cn-dbpedia: A never-ending chinese knowledge extraction system. In International Conference on In- dustrial,Engineering and Other Applications of Applied In- telligent Systems, 428–438.Springer.

[23] cnSchema官網：http://cnschema.org

[24] Michele Banko, Michael J Cafarella,Stephen Soderland, Matthew Broadhead, and Oren Etzioni. Open information extraction from the web. In IJCAI, volume 7, pages 2670– 2676, 2007.

[25] Anthony Fader, Stephen Soderland, andOren Etzioni. Identifying relations for open information extraction. InProceedings of the Conference on Empirical Methods in Natural Language Processing, pages 1535–1545. Association for Computational Linguistics, 2011.

[26] Michael Schmitz, Robert Bart, Stephen Soderland, Oren Etzioni, et al. Open language learning for information extraction. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages523–534. Association for Computational Linguistics, 2012.

[27] Andrew Carlson, Justin Betteridge,Bryan Kisiel, Burr Settles, Estevam R Hruschka Jr, and Tom M Mitchell. Towardan architecture for never-ending language learning. In AAAI, volume 5, page 3,2010.

[28] Ndapandula Nakashole, Gerhard Weikum,and Fabian Suchanek. Patty: a taxonomy of relational patterns with semantictypes. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages1135–1145. Association for Computational Linguistics, 2012.

[29] T. Mitchell, W. Cohen, E. Hruschka, P.Talukdar, J. Betteridge, A. Carlson, B. Dalvi, M. Gardner, B. Kisiel, J.Krishnamurthy, N. Lao, K. Mazaitis, T. Mohamed, N. Nakashole, E. Platanios, A.Ritter, M. Samadi, B. Settles, R. Wang, D. Wijaya, A. Gupta, X. Chen, A.Saparov, M. Greaves, J. Welling. In Proceedings of the Conference on Artificial Intelligence (AAAI), 2015.

本期責任編輯：趙森棟

本期編輯：吳洋

主編：車萬翔

副主編：張偉男，丁效

責任編輯：張偉男，丁效，郭江，趙森棟

編輯：李家琦，趙得志，趙懷鵬，吳洋，劉元興，蔡碧波

長按下圖並點擊「識別圖中二維碼」，即可關注哈爾濱工業大學社會計算與信息檢索研究中心微信公共號：」哈工大SCIR」。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 哈工大SCIR 的精彩文章:

TAG:哈工大SCIR |