當前位置:
首頁 > 新聞 > 統覽整個學術圈:上交大發布知識圖譜AceKG,超1億實體,近100G數據量

統覽整個學術圈:上交大發布知識圖譜AceKG,超1億實體,近100G數據量

2018新智元AI技術峰會倒計時15天】

諾貝爾獎唯一計算機領域評委親臨,峰會首批嘉賓陣容公布

3月29日,將於北京舉辦的2018年中國AI開年盛典——2018新智元AI技術峰會上,我們邀請到了德國總理默克爾的科學顧問、諾貝爾獎唯一計算機領域評委、工業4.0教父、世界頂級自然語言處理專家Wolfgang Wahlste教授。Wahlster教授將親臨329峰會現場分享歐洲對人工智慧科技發展和AI產業化的思考。想現場一睹諾獎評委的風采,點擊文末閱讀原文,馬上參會!

搶票鏈接:http://www.huodongxing.com/event/8426451122400

新智元專欄

來源:上海交通大學,Acemap團隊

【新智元導讀】由上海交通大學王新兵教授和張偉楠教授指導的Acemap團隊知識圖譜小組,近日發布了學術知識圖譜AceKG,提供了近100G大小的數據集,為每個實體提供了豐富的屬性信息,涵蓋權威學術知識,旨在為眾多學術大數據挖掘項目提供支持。

Acemap學術知識圖譜網址:

http://acemap.sjtu.edu.cn/app/AceKG/

知識圖譜是知識工程的一個分支,由語義網路發展而來,由於其在搜索與推薦系統中的極大應用前景,近幾年在機器學習、自然語言處理等最新技術的推動下迅速發展,受到了業界和學術界的廣泛關注。

最新發布的Acemap知識圖譜(AceKG)描述了超過1億個學術實體、22億條三元組信息,涵蓋了全面的學術信息。具體而言,AceKG包含了61,704,089篇paper、52,498,428位學者、50,233個研究領域、19,843個學術研究機構、22,744個學術期刊、1,278個學術會議以及3個學術聯盟(如C9聯盟)。

同時,AceKG也為每個實體提供了豐富的屬性信息,在網路拓撲結構的基礎上加上語義信息,旨在為眾多學術大數據挖掘項目提供全面支持。

AceKG的結構框架

與現有學術知識圖譜相比,AceKG在以下方面具有優勢:

1、AceKG提供了學術異構圖譜,包含了多樣的學術實體與相應的屬性,可以支持多樣的學術大數據挖掘課題,例如現階段異構網路向量化的諸多課題。

2、AceKG從更高的角度統覽整個學術圈,提供了近100G大小的數據集,包括論文、作者、領域、機構、期刊、會議、聯盟,支持權威和實用的學術研究。

3、AceKG以結構化的Turtle文件格式給出(具體格式見下表),致力於減少數據預處理的不便,同時更易於機器處理,支持全部Apache Jena API。

Turtle文件格式示意圖:按論文、作者、領域、機構、會議、領域等類別進行存儲

在工程架構上,AceKG使用Apache Jena框架進行驅動。Apache Jena(http://jena.apache.org)使用TDB資料庫存儲三元組數據,並且提供SPARQL引擎支持對三元組數據進行查詢。

AceKG具體工程架構

上海交通大學電子信息與電氣工程學院副院長、John Hopcroft計算中心執行主任、Acemap學術搜索項目總負責人王新兵教授在接受新智元訪談時表示:「本次發布的AceKG學術知識圖譜,其最大的優勢就是背後所依靠的整個Acemap學術搜索系統巨大的資料庫,我們擁有的約1.15億名學者信息和1.27億篇論文信息,為AceKG的構建提供了海量的結構化數據。」

「在保證海量數據的同時,我們也深知緊跟學術領域最前沿的重要性,所以最新發表的ACM、IEEE論文也會及時收錄,確保我們系統的前沿性與實用性。」

在談及本次發布的近100G數據量的AceKG學術知識圖譜將如何應用的問題上,王新兵教授風趣地談到:「本次發布的AceKG是從一個更高的角度對整個學術界進行統覽,所以這次發布的數據集很大,不僅有計算機領域,也有醫學,通信等領域。」

「打一個比方,本次發布的AceKG好比一整扇的豬肉,對於一個正常人,這一整扇的豬肉不可能全部吃下,醫學領域的人可能喜歡吃『火腿』,計算機領域的人可能喜歡吃『豬蹄』,就算是對於同一部分肉,你也可以做成魚香肉絲或者是糖醋排骨等不同的菜。」

在AceKG如何應用這個問題上,團隊制定了「三步走」的戰略:

第一步是把「整扇的豬肉」切成不同量級的肉。現在的AceKG擁有22億的三元組,未來可能會推出幾萬和幾十萬量級三元組的數據集,並且在這些較小的數據集上評測一些演算法,比如「異構網路向量化」的這個話題。現在常用的數據集是FB15k和WN18,但我們在進行學術領域的相關研究時,沒有發現較好的學術領域異構網路數據集,我們可能在未來推出的較小的數據集上測試一些如TransE的經典向量化演算法。

第二步則是把肉做成具體的如「糖醋排骨」這樣具體的菜,類似於QQ或者Facebook這樣利用社交網路給你推薦你可能感興趣的人,比如你剛加了一位好友,你想知道他的婚姻狀況,可能這兩個社交應用給你推薦的「感興趣的人」裡面,就有這位朋友的妻子。在學術領域,同學們申請出國也好,學者們想進入某一領域也好,都需要類似的學術圈社交網路的新型推薦,這種推薦不僅僅是局限於合作者或者在同一個機構工作,我們的Acemap學術搜索系統在未來將致力於基於AceKG的特色推薦系統研發。

第三步則有點像《紅樓夢》劉姥姥進大觀園吃的那道茄子菜——這道茄子在烹飪的過程中使用了大量的雞油、雞肉等材料,我們最後就想在Acemap學術搜索系統中做成一道這樣的「茄子」,最後的互動式可視化應用可以為用戶提供更加流暢、舒適的使用體驗,而在這道「茄子」背後的雞油,雞肉就是我們的AceKG在提供支撐。

新智元了解到,除AceKG之外,Acemap團隊近期也發布了學術會議期刊核心(core)學者地圖、CS熱詞近五年熱度變化趨勢統計及未來熱度預測等研究成果,從不同角度對學術信息進行挖掘。詳情參考Acemap學術地圖式搜索系統:http://acemap.sjtu.edu.cn/

了解更多:

Acemap學術知識圖譜網址:http://acemap.sjtu.edu.cn/app/AceKG/


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

Ken Church、熊輝等三位世界級科學家加盟,新增商業智能和自動駕駛實驗室
國內首款量產NPU再升級,16倍性能提升

TAG:新智元 |