億級學術圖譜 Open Academic Graph 更新至 2.0 版本：包含約 7 億實體數據、20 億關係

新聞 03-01

雷鋒網 AI 科技評論按：繼 2017 年 8 月份首度聯合發布開放學術圖譜（Open Academic Graph， OAG），近日，清華大學和微軟研究院再度攜手將 OAG 更新為 2.0 版本並進行了發布。

OAG 2.0 版本下載網址：https://www.openacademic.ai/oag/

OAG 2.0 版本 VS 1.0 版本

於 2017 年開放的 OAG 1.0 版本，通過整合清華 AMiner 學術圖譜的 154,771,162 篇學術論文的元數據和微軟學術圖譜（Microsoft Academic Graph, MAG）的 166,192,182 億篇論文，生成了兩個學術圖譜之間近 64,639,608 對鏈接（匹配）關係。

億級學術圖譜 Open Academic Graph 更新至 2.0 版本：包含約 7 億實體數據、20 億關係

OAG 1.0 版本

而相較 OAG 的 1.0 版本，2.0 版本的更新在於它在論文相關數據的基礎上，增加了作者以及出版地點相關的數據，也就是說新發布的 2.0 版本包括了論文、作者、出版地點 3 類實體以及相應的匹配關係。

據悉，截止 2019 年 1 月，OAG 2.0版本包括約 7 億實體數據和約 20 億實體之間的鏈接關係，其中包括 AMiner 的 2.8 億實體數據和 MAG 的 4 億多實體。OAG v2 的統計數據如下面三張圖表所示：

OAG論文數據統計，圖片截止官網

OAG作者數據統計，圖片截止官網

OAG出版地點數據統計，圖片截止官網

由於 MAG 和 AMiner 兩個學術圖譜都在不斷演變，在這三張圖表中，OAG 2.0版本採用了 MAG 2018 年 11 月的快照和 AMiner 2018 年 7 月或 2019 年 1 月的快照。另外值得一提的是，在對於作者匹配，學者們只考慮了論文數不少於 5 的作者，並將論文數量較少的作者排除後，其中，AMiner 中有 6,855,193 位作者，MAG 中有 13,173,936 位作者。

面臨的挑戰

對於該上億規模 OAG 的構建，無論是 1.0 版本還是最近更新的 2.0 版本，都存在著較大的挑戰，其中包括：

數據+實體異構：在 1.0 版本中，由於數據分布在不同的數據源中，所以 OAG 面臨著異構的數據問題。例如期刊或會議可能會使用全名或縮寫。而在 2.0 版本中，除了要面臨數據異構的挑戰，OAG 還迎來了實體異構的挑戰：OAG 2.0 中不同類型的實體具有異構性，它們都有各自不同的特徵。例如，出版地點的主要屬性是名稱，而論文有不同類型的屬性，如題目，作者列表，年份等。此外，不同數據源的相同屬性也有異構性。例如論文作者可能存在不同的格式，如 Quoc Le 和 Le, Quoc；出版地點有全稱或縮寫等多種形式。
實體歧義：同一名稱可以表示多個實體，這也給圖譜連接帶來了很大困難。比如常見姓名通常是作者匹配的難點。對於論文來說，相同的題目也可能代表不同的論文，如在 KDD 2016 中收集了兩篇題為「robust influence maximization」的不同論文。
大規模匹配、計算：面對億級數據集成，如何進行高效計算是 1.0 版本和 2.0 版本都要面對的巨大挑戰。以已經公布的論文數據為例，AMiner 和 MAG 各自有約 1.7 億和 2 億篇論文，因此需要設計一個高效的匹配框架。

解決方案和評估結果

在 OAG 1.0 版本發布之際，雷鋒網 AI 科技評論曾對清華大學副教授、Arnetminer 創始人唐傑博士進行了採訪。採訪中，當問到如何解決數據異構、同名歧義、大規模匹配和計算等問題時，唐傑博士提到他們設計了一個折衷方法：同時考慮精度和效率。據介紹，該演算法將演算法複雜度降低到 O(nlogn) 到 O(n2) 之間，目前每天能夠完成約 2 千萬篇論文的匹配，基本完成了合計 3 億篇論文的自動匹配，並保證了高匹配精度：

具體來說，我們設計了一個針對大規模論文匹配的非同步搜索框架。對於 AMiner 中的每篇論文，我們根據題目在MAG中搜索可能匹配的論文，每次搜索的時間在幾百毫秒到幾秒不等。通過非同步搜索的策略，可以做到平均每秒搜索到 20 余篇論文，使得大規模的圖譜鏈接可以達到較快的速度。

另外，為了進一步提高自動集成速度，他們還嘗試了兩個新的匹配演算法 MHash 和 MCNN。

MHash是利用哈希演算法，將每篇論文轉化為一串二值編碼，計算兩篇論文之間的漢明距離。由於使用了哈希，該演算法速度很快，但同時精度也有所降低，大概能保持 93+% 的匹配準確率。MCNN是基於卷積神經網路的深度學習方法，MCNN 基於單詞之間的相似度構造兩篇論文的相似矩陣，然後利用卷積神經網路來捕捉文本之間的相似模式。

同時，唐傑博士還提到在實際的操作過程中，該方法也可以緩解數據異構的問題。如：對於作者Quoc Le 和Le, Quoc，它們對應位置上的單詞是不相似的，但是在相似矩陣中可以捕捉不對應位置上單詞的相似度。最終結果顯示，該方法可以達到非常高的匹配準確率（98%+）。另外，這兩個論文匹配演算法均結合了論文的多個屬性，如題目、作者等減輕同名消歧問題。

而對於增加了 2 個實體 OAG 2.0 版本來說，要應對這些挑戰更是難上加難，對此，學者們在沿用哈希演算法、神經網路深度學習等方法的同時，也嘗試結合這些演算法以及不同神經網路模型和注意力機制等方法，來連接兩個大規模學術圖譜上不同類型的實體（論文、作者和出版地點）。學者們評估了少部分匹配關係（大約 1,000 個論文/作者/出版地點匹配對），得出了相對應的匹配準確率：其中論文最新的匹配準確率為 99.10%；作者的匹配準確率為 97.41%；出版地址的匹配準確率為 99.26%。

實體匹配準確率，圖片截止官網

OAS 介紹

OAG 是開放學術組織（Open Academic Society, OAS）的一個重要項目，OAS 是一個由微軟，清華，艾倫人工智慧研究所，亞利桑那大學，華盛頓大學，加州大學洛杉磯分校和澳大利亞國立大學等全球 20 個機構組成的促進開放學術資料共享、加強學術交流與合作的聯盟。OAG 旨在整合全球學術知識圖譜，公開共享學術圖譜數據，並提供相關學術搜索和數據挖掘服務。

具體來說，OAS 的主要功能包括：

整合豐富的學術知識數據：目前，OAG 的核心數據來自 MAG 和 AMiner，下一步將會整合另外的學術數據，包括不同類型的實體的語義數據。另外，數據集成和數據挖掘演算法也會將更多的實體鏈接到更精確更豐富的數據（包括元數據、概念網路、研究領域、全文和作者個人信息）上。
數據共享：通過分享不同的學術知識地圖及其鏈接，我們希望能夠促進知識圖譜、學者合作關係、學術主題挖掘等領域的學術研究。
服務共享：希望設計更智能的學術圖譜連接系統，並提供相關服務（如 API），以鼓勵更多的人使用該服務並加入開放學術組織。

資料參考自：學術頭條，《清華大學和微軟研究院聯合發布「開放學術圖譜（OAG）2.0版本」》雷鋒網雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※視見醫療科技研發總監王少彬：宮頸癌放療精準臨床靶區勾畫
※自動駕駛汽車數據不再封閉，Uber 開源新的數據可視化系統

TAG:雷鋒網 |