當前位置:
首頁 > 科技 > 谷歌搜索神器:Dataset Search數據集搜索了解下

谷歌搜索神器:Dataset Search數據集搜索了解下

編輯 | 都保傑

微信 | ai_xingqiu

網址 | 51aistar.com

谷歌又給大家開發了新的索引工具,人工智慧深度學習浪潮下,數據作為AI的三大驅動要素之一,開發者、AI愛好者總避免不了要用到數據集,針對此種需求,谷歌推出了數據集搜索神器:Dataset Search(測試版)。

目前,政府機構、科學出版社、研究機構甚至是個人研究者在全世界維護著成千上萬的開源數據資源庫,包含了數百萬個數據集,Dataset Search基於擁有者對文件和資料庫的分類方式來查找文件和數據集,這將極大促進開放數據趨勢的發展。

吶,搜索界面就是這個:https://toolbox.google.com/datasetsearch

來自谷歌官方的簡介:數據集搜索使用戶能夠查找網上數以千計的存儲區中存儲的數據集,從而讓這些數據集可供大眾使用,讓人人受益。

數據集和相關數據往往分布在網上的多個數據存儲區中。在大多數情況下,搜索引擎既無法提供這些資料庫相關信息的鏈接,也不會將這些信息編入索引,這會導致數據尋找變得無比繁瑣,或者在某些情況下無法實現。

我們為用戶提供了能夠同時搜索多個存儲區的單個界面,希望藉此改變用戶發布和運用數據的方式。我們還相信,這個項目能夠帶來下列好處:a) 形成數據共享生態系統,鼓勵數據發布者依照最佳做法來存儲和發布數據;b) 為科學家提供相應平台,方便大眾引用他們創建的數據集,展現他們的研究成果所帶來的影響力。

還有一個大型官方數據集是美國國家海洋和大氣管理局提供的,該數據集包括從位於毗鄰美國、阿拉斯加、夏威夷、美國領土和軍事基地的下一代雷達(NEXRAD)站收集的第3級天氣雷達信息,雷達探測大氣降水和風,使科學家能夠跟蹤和預測天氣事件,如雨、冰球、雪、冰雹和龍捲風,以及一些非天氣物體,如鳥類和昆蟲,大多數站在20世紀90年代中期開始觀測,並且大部分記錄是連續的,數據的總容量超過 35 PB。

再比如我們再搜一個「中國人口China Population」:2017年12月,中國人口達到1.391億人,在最新的報告中,中國的失業率在6月2018下降到3.8%,中國12月份的月度收入為936.5美元,該國的勞動力參與率在12月2017下降到68.9%。

對比之下,我們大百度的人口信息還停留在2016年國家統計局數據,有些時候差距大概就是差這麼一點點:

舉個例子,ImageNet之前有Pascal VOC競賽,剛開始只有20個目標類別,後來ImageNet擴充到1000類目標,數據量也達到百萬級,數據規模大了,傳統演算法準確度就大幅下降,但是大規模的數據集有助於研究者開發更高級的模型來不斷提升演算法的精度。比如2012年Hinton將CNN模型結合GPU加速應用到ImageNet數據上,其準確率相對於當時最好的傳統演算法提升了11%,進而到最近年的95%以上,這種演算法結果準確性的提升,很大一部分原因也是數據集帶來的。

有觀點認為,制約人工智慧領域很多重大突破的,並非演算法不夠先進,而是缺乏高質量數據集,想要開發出最先進的機器學習技術,數據至關重要。對於在業務中將機器學習作為核心技術的初創公司來說,能否獲得高質量的訓練數據極為關鍵,雖然很多演算法和軟體工具都是開源和共享的,但好的數據集通常是專有的,擁有針對特定領域的龐大數據集,能夠成為競爭優勢的一個重要來源。

在AI學界,數據集的意義更加直接:沒有數據集,就無法展開相應的研究工作,所以在確定研究課題後,最為首要的任務也是獲得相應的數據集,比如文字處理、圖像分類任務,行為識別、目標檢測等數據集,數據集分布越接近真實應用場景,就越有可能對研究工作起到積極的推動作用。

如果你想了解最前沿的AI技術和場景應用

一網打盡AI世界的前瞻科技和深度報道

歡迎關注AI星球,並轉發朋友圈為我們打Call~~

你們的支持是我們創造優質內容的不竭動力


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI星球 的精彩文章:

Facebook要發射互聯網衛星?想要造福全人類
北京小伙一招「飛龍在天」,榮獲ICRA 2018最佳無人機論文

TAG:AI星球 |