如何優雅的獲取數據
數據分析是論文中不可缺少的部分,而數據分析的根本則在於數據。首先,我們要確保數據的可靠性與真實性,然後再把這些數據分析應用到科研論文中,發揮數據的價值。昨天給大家推送了幾款論文寫作神器,今天給大家推薦幾款獲取數據的神器。
。
1
一.公開數據集
1. GitHub——Awesome Public Datasets
(https://github.com/caesar0301/awesome-public-datasets)
這是一個由各路大神手工整理的各種公開數據的列表,涉及領域眾多,數據非常全面。涉及的領域包括:農業、生物學、氣候、計算機網路、數據科學、地球科學、經濟學、教育、能源、金融學、GIS、圖像處理、機器學習……
2. UCI資料庫
http://archive.ics.uci.edu/ml/datasets.html
UCI資料庫是加州大學歐文分校(University of CaliforniaIrvine)提出的用於機器學習的資料庫,這個資料庫目前共有438個數據集,其數目還在不斷增加,UCI數據集是一個常用的標準測試數據集。UCI數據可以使用matlab的dlmread(或textread或者利用matlab的導入數據)讀取。
3. 其他大數據集(國內可能上不去的)
Amazon Web Services (AWS) dataset
(https://aws.amazon.com/datasets/)
亞馬遜提供了一些大數據集,你可以在他們的平台或者本地計算機上使用。
Google datasets
(https://cloud.google.com/bigquery/public-data/)
作為BigQuery的一部分,Google提供了一些大數據集,該站點上的數據集包括嬰兒名字,GitHub的公開數據等等。
Youtube labeled Video Dataset
(https://research.google.com/youtube8m/)
幾個月前,Google Research Group發布了Youtube的數據集。其中包括800萬Youtube視頻ID和相關標籤。
2
二、國內公開數據
1.國家數據
這個資料庫信息內容涵蓋範圍全面、詳實,並且有些數據已經做好了可視化,所以具有很高的實用性;基本只要和國情相關的信息都會在裡邊發布;比如地區房價、工業、能源、居民消費總額、房地產投資甚至食品的平均價格。國家統計資料庫包括歷年月、季、年度數據,可通過資料庫「搜索」、選擇「指標」等方式,方便快捷地查詢到歷年、分地區、分專業的數據。
2.中華人民共和國國家統計局
這個網站的信息是比較宏觀的,國家統計局一般只發布全國和分省的宏觀統計數據。但如果想獲取市級、地級信息,也可以底部的友情鏈接中獲取。
3
三、數據採集
網路爬蟲,做數據分析的,相信大家都聽說過。但很多人就說,我不會寫Python,也沒時間學。很多公司需要數據的時候常常也會將要爬取的網站外包出去。但其實還有一種方式,就是採集器採集。
1.八爪魚採集器
這是一款免費的數據採集工具,而且沒有功能限制,幾乎所有網站都能採集,最大的特點是上手快,免費採集幾萬條數據沒壓力,當然也有付費增值服務可選。
4
四、地圖數據源
不得不承認,做數據分析的時候,我最喜歡的就是地圖了。因為可以自己選擇、編輯、繪製地圖。而地圖的美觀程度直接影響了我的心情。當然最重要的還是裡面的開源數據。
1.OSGeo中國中心
OSGeo中國中心的使命是支持開源地理信息軟體和遙感軟體的開發以及推動其更廣泛的應用,尤其是幫助中國地區的用戶和開發者。涉及生態領域、地理、氣候資源較多。
2.ArcGIS
(https://hub.arcgis.com/pages/open-data)
3.OSM
(openstreetmap.org/)
OpenStreetMap是一個世界地圖,可依據開放許可協議自由使用、編輯、繪製。目標是創造一個內容自由且能讓所有人編輯的世界地圖。設計屬於自己的地圖,從這裡開始。
長按以下圖片掃碼後即可關注公眾號:
TAG:中國礦業大學管院研會 |