當前位置:
首頁 > 知識 > 微軟研究院和清華大學聯合發布 「開放學術圖譜2.0版本」

微軟研究院和清華大學聯合發布 「開放學術圖譜2.0版本」

來源:微軟研究院AI頭條

本文約3000字建議閱讀5分鐘

本文為你介紹了最新發布的開放學術圖譜2.0版本。

[導 讀]開放學術組織(Open Academic Society)是由微軟、清華、艾倫人工智慧研究所、亞利桑那大學、華盛頓大學等20個全球機構聯合成立的學術組織,旨在推廣學術數據的開放共享、加強學術交流與合作。其中,連接了來自微軟和清華大學兩個億級學術圖譜的開放學術圖譜(Open Academic Graph,OAG)是該組織的一個重要項目。近日,微軟研究院和清華大學聯合發布了OAG 2.0版本,新版本增加了作者和出版地點相關的數據,並實現了兩個數據集中實體的自動匹配鏈接。

開放學術圖譜(Open Academic Graph,OAG)是一個大型的學術知識圖譜,連接了兩個億級學術圖譜:微軟學術圖譜(Microsoft Academic Graph,MAG)和清華大學的AMiner學術圖譜,致力於提供完全開放、免費的公開學術圖譜。具體來說,OAG包含了來自MAG的超過1.66億篇學術論文和來自AMiner的近1.55億篇論文的元數據信息。經過集成這些數據信息,OAG生成了兩個學術圖譜之間近6500萬對鏈接(匹配)關係。

2017年8月,微軟研究院和清華大學聯合發布了OAG 1.0版本。在過去一年多的時間裡,OAG 1.0版本吸引了約4萬次下載。

OAG 1.0概覽

OAG 2.0

在OAG 1.0版本的基礎上,近日,微軟研究院和清華大學雙方聯合發布了OAG 2.0版本。

OAG 2.0包含了約7億實體數據和20億實體之間的鏈接關係,其中包括AMiner的2.8億實體數據(作者、論文、會議)和微軟學術圖譜MAG的4億多實體。新版本不僅增加了如作者、出版地點、論文等更多類型的實體數據以及相應的匹配關係,同時,還實現了兩個數據集中實體的自動匹配鏈接。

OAG 2.0定義的問題如下圖所示。OAG目前有約7億實體數量,不同實體相互聯繫構成了一個大規模異構網路。下圖的中間部分表示了作者名字的歧義性。而圖的下面則展示了不同類型實體的異構性,因此匹配不同類型的實體需要考慮其不同的特點。

大規模實體匹配的示例

截止2019年1月,OAG 2.0的統計數據如下面三個表格所示。因為微軟學術圖譜MAG和AMiner兩個學術圖譜都在不斷演變,所以OAG 2.0採用了MAG 2018年11月的快照和AMiner 2018年7月或2019年1月的快照。

OAG出版地點數據統計

OAG論文數據統計

OAG作者數據統計

註:對於作者匹配,本次匹配只考慮了論文數不少於5的作者。將論文數量較少的作者排除後,AMiner中有6,855,193位作者,MAG中有13,173,936位作者。

構建億級開放學術圖譜

構建億級開放學術圖譜是一項極具挑戰的研究工作。由於學術數據在不同圖譜中呈現分布異構的特點,同名異義和異名同義問題嚴重,因此,實現數據的精準匹配是一個重要挑戰。

研究過程中,主要的難點體現在以下三個方面:

實體異構。OAG中不同類型的實體具有異構性,它們都有各自不同的特徵。例如,出版地點的主要屬性是名稱,而論文有不同類型的屬性,如題目,作者列表,年份等。此外,不同數據源的相同屬性也有異構性。例如論文作者可能存在不同的格式,如Quoc Le 和Le, Quoc;發表地點有全稱或縮寫等多種形式。

實體歧義。同一名稱可以表示多個實體,這也給圖譜連接帶來了很大困難。比如常見姓名通常是作者匹配的難點。對於論文來說,相同的題目也可能代表不同的論文,如在KDD 2016中收集了兩篇題為「robust influence maximization」的不同論文。

大規模匹配。要實現億級數據集成,如何進行高效計算是另一個重要挑戰。以已經公布的論文數據為例,AMiner和MAG各自有約1.7億和2億篇論文,因此需要設計一個高效的匹配框架。

為此,微軟和清華大學的學者們嘗試結合哈希演算法、不同神經網路模型和注意力機制等方法,來連接兩個大規模學術圖譜上不同類型的實體(出版地點,論文和作者)。

隨後,學者們評估了少部分匹配關係(大約1,000個出版地點/論文/作者匹配對),其準確率表現優異。

實體匹配準確率

OAG:學術數據的開放共享

開放學術圖譜OAG是開放學術組織(Open Academic Society)的一個重要項目。開放學術組織是微軟、清華、艾倫人工智慧研究所、亞利桑那大學、華盛頓大學、加州洛杉磯大學、澳洲國立大學等20個全球機構一起聯合成立的學術組織,旨在推廣學術數據的開放共享、加強學術交流與合作。

OAG可以用於多種研究課題,如:網路數據挖掘(論文引用關係網路,作者合作關係網路等),文獻內容挖掘,同名作者消歧和學術圖譜對齊等等。

以集成全球不同學術知識圖譜、公開共享學術圖譜數據、提供相關學術搜索與挖掘服務為目標,微軟和清華大學的學者們希望OAG可以實現:

集成豐富的學術知識數據。目前OAG的核心數據來自微軟學術圖譜MAG和AMiner學術圖譜,下一步OAG將集成更多其他學術圖譜數據,包括擴充不同類型實體(如作者、論文等)的語義數據。通過數據集成和數據挖掘演算法,OAG將鏈接更多實體,及更精準和豐富的「畫像」數據,包括論文的元數據、概念網路、研究領域、全文等和作者的基本信息(如:職位、單位、聯繫信息、國家、性別等)、研究興趣以及論文列表等。

數據共享。通過共享不同的學術知識圖譜,以及它們的鏈接關係,造福學術界對知識圖譜、學者合作關係、學術主題挖掘以及大規模學術圖譜連接等領域的研究。同時,也歡迎更多學術社區的貢獻來進一步增強OAG。

服務共享。設計更加智能的學術圖譜連接系統,並提供相關的服務(如API),以方便更多人使用服務以及加入開放學術社區。

參考文獻

[1] An Overview of Microsoft Academic Service (MAS) and Applications.

https://www.microsoft.com/en-us/research/publication/an-overview-of-microsoft-academic-service-mas-and-applications-2/

[2] ArnetMiner: Extraction and Mining of Academic Social Networks.

http://keg.cs.tsinghua.edu.cn/jietang/publications/KDD08-Tang-et-al-ArnetMiner.pdf

編輯:王菁

校對:林亦霖


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 數據派THU 的精彩文章:

10本好書帶你從Python爬蟲小白進階數據分析大神
QS世界大學學科排名公布,清華22個學科進入世界50強

TAG:數據派THU |