當前位置:
首頁 > 新聞 > 剛剛,Google推出了新的搜索服務

剛剛,Google推出了新的搜索服務

原標題:剛剛,Google推出了新的搜索服務


Google和數據技術的發展一直是齊頭並進的,現在Google通過更快搜索數據來進一步強化大眾和數據的關係。


眼下,一個好消息又來了:Google再次宣布開放一個全新的搜索服務:Dataset Search

(數據集搜索)。



還記得不久之前Google發布的Google Scholar(學術搜索)嗎?當時的Google


Scholar 填補了快速查找學術資料的空白,那麼這一次,Google直接將注意力更精準地聚焦到了數據集,簡直「體貼又細心」!

Google人工智慧研究科學家Natasha Noy表示,科學家、研究人員、數據記者和其他有興趣使用數據的人是這個工具的主要受眾,與此同時,Google認為這些數據集在整個Google產品中的地位將會變得更加突出。


數據工作者的又一「神器」


首先,數據集到底是什麼?先來普及下概念。Dataset(數據集),又稱為資料集、數據集合或資料集合,是一種由數據所組成的集合。Dataset通常以表格形式出現。每一列代表一個特定變數,每一行都對應於某一成員的數據集的問題。它列出的價值觀為每一個變數,如身高和體重的一個物體或價值的隨機數。每個數值被稱為數據資料。對應於行數,該數據集的數據可能包括一個或多個成員。


從歷史上看,這個術語起源於大型機領域,在那裡它有一個明確界定的意義,非常接近現代的計算機檔案。


Natasha Noy表示,這個新服務會將數萬個不同在線數據集存檔統一起來。那最終這些數據集的歸屬在哪呢?Natasha Noy談到:「我們想要讓這些數據可以被發現,但數據仍保留在原始位置。」

如何運行?我們嘗試進行了操作


這個Dataset Search怎麼運行的?事實上,即使對於組織最完善、數據最豐富的人來說,也需要利用來源於外部的數據。


舉個天氣和環境數據的典型例子。


假設你想要將農業數據與天氣現象相關聯以預測作物生長,或者想要研究天氣對整個歷史時期發生的現象的影響。這種歷史天氣數據,幾乎不可能由任何單一組織積累和策劃,很可能由NOAA和NASA等組織隨時提供(雷鋒網註:NOAA是美國國家海洋和大氣管理局,NASA是美國國家航空航天局)。


這些組織會通過專用數據門戶定期策劃和發布其數據,因此,如果你需要定期獲取數據,可能需要熟悉通過這些門戶定位數據的過程。當然,你還必須同時關注NOAA和NASA之外的其他可能的信息來源。

如果不僅需要天氣數據,還想找到正確的來源,然後再找到這些來源的更多正確數據,在此之前一個搜索界面根本無法做到,現在Google開發了Dataset Search,可以實現一個界面搜索出來,是不是很驚喜很意外?


實際上,Google對結構化數據的熱愛一直是持續的,標誌性事件就是通過收購Metaweb整合了Google的知識圖譜,並通過schema.org支持結構化元數據。



搜索數據集會檢索查詢的多個結果,顯示數據集提供者和時間段

雷鋒網編輯嘗試進入Dataset Search官網,發現在搜索頁面,如果一個數據集直接對應於一個出版物,那麼在數據集名稱旁邊就有一個出版物的鏈接。雷鋒網還觀察到,Google還提供了參考數據集的出版物的大致數量。


諸多問題值得考慮:錯誤內容、排名與盈利的可能


推出了這個搜索,不僅為專業用戶提供方便,而且對於數據集提供商也是大有好處。NOAA的CDO(首席開發官) Ed Kearns是該項目的堅定支持者,並幫助NOAA在該工具中搜索了許多數據集。

「這種類型的搜索,長期以來一直是開放數據和科學界許多研究人員的夢想。對於NOAA而言,一部分工作是與他人共享我們的數據,Dataset Search對於讓更廣泛的用戶社區更容易訪問我們的數據至關重要。」


Dataset Search搜索後進入某一個數據集鏈接,其對一些信息的排名


為了避免數據集提供商將內容錯誤地描述為「數據集」,Google能夠告訴它「這不是一個數據集」或者降低它的排名嗎?Google並沒有給出明確的應對措施,只是表示,Google會在用戶開始使用該工具後獲得更多經驗,進行改進,努力地提高結果的質量。


如何解決被搜索出的數據集排名問題呢?Google表示,對數據集來自的頁面使用Web排名的組合(基於Google演算法),並將其與數據集特定信號(如元數據質量、引用等)相結合。


再進一步想,如果排除在搜索排名上盈利的可能,Google哪一天會不會拿它出來盈利?比如從銷售渠道收集數據,並使用它們來生成具有洞察力的定期報告?


不論如何,眼下這個項目是有助於科學決策的,需要的人士儘管放心的使用。不過隨著數據的價值越來越凸顯,Google也越來越重視,包括其在雲計算和AI不斷加大投入。大膽猜測一下,Dataset Search會是Google在學術數據領域的商業化的第一步。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

這家頂尖 CA 廠商的主營業務可讓黃網更安全,但它野心不止於此
藍色游標發布AI營銷機器人,能否替代人類創意?

TAG:雷鋒網 |