當前位置:
首頁 > 知識 > 微軟研究院發布開放數據項目,公開 15 類內部研究數據集

微軟研究院發布開放數據項目,公開 15 類內部研究數據集

雷鋒網(公眾號:雷鋒網) AI 研習社按,日前,微軟研究院發布微軟研究院開放數據項目(Microsoft Research Open Data),這一開放數據項目包括 15 個研究領域的數據集,涵蓋計算機科學、社會科學、物理學、天文學、生物學、經濟學等多個方面。據悉,這些數據集是微軟多年來在已發表的研究中所使用的數據管理和研究成果。(微軟憑藉這一開放數據項目的發布,在雷鋒網學術頻道 AI 科技評論旗下資料庫項目「AI 影響因子」中增加 4 分。)

微軟表示,他們的目標是為研究人員與合作者提供一個簡單方便的平台,用於共享數據集、研究技術和工具。開放這一項目的目的是簡化數據集的訪問流程,促進使用雲資源的研究人員之間的協作,實現研究資源的可復用性。

圖 微軟研究院開放數據項目中的數據集

隨著全球的數據量呈指數級增長,人們普遍認為在 2025 年數據量將超過 150ZB,大家已經意識到應該優先處理數據。微軟堅信,這一開放數據集將為學術界和產業界帶來巨大的應用價值。

用戶現在可以直接訪問 microsoftopendata.com 瀏覽和下載可用的數據集,或者利用自動工作流直接將數據集通過 Azure 訂閱複製到基於 Azure 的 Data Science 虛擬機上,如下圖。

圖:直接在 microsoftopendata.com 上將數據集複製到基於 Azure 的 Linux 虛擬機上

數據集的分類如下圖所示:

其中開發的數據集包括微軟機器閱讀理解(MS MARCO),微軟研究院社交媒體對話語料庫,SigmaDolphin 等等。

大家可以訪問https://msropendata.com/來查詢、下載各類數據。

via:微軟亞洲研究院,Microsoft blog

CCF-GAIR 大會即將開幕!

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

計算機視覺領域的王者與榮耀
想要訓練專屬人臉識別模型?先掌握構建人臉數據集的三種絕招

TAG:AI研習社 |