當前位置:
首頁 > 科技 > 這些數據獲取方式,一般人不知道

這些數據獲取方式,一般人不知道

在這個用數據說話的時代,能夠打動人的往往是用數據說話的理性分析,無論是對於混跡職場的小年輕,還是需要數據進行分析和研究的同學,能夠找到合適的數據源都是非常重要的。特別是想要對一個新的領域進行研究和探索,擁有這個領域的數據那都是有十分重要的意義的。

在這裡給大家推薦一些能夠用上數據獲取方式,有了這些資源,不僅可以在數據收集的效率上能夠得到很大的提升,同時也可以學習更多思維方式。

1

公開的資料庫

- 國家數據 -

數據來源於中國國家統計局,包含了我國經濟民生等多個方面的數據,並且在月度、季度、年度都有覆蓋,較為全面和權威,對於社會科學的研究不要太有幫助。最關鍵的是,網站簡潔美觀,還有專門的可視化讀物。

- CEIC -

最完整的一套超過128個國家的經濟數據,能夠精確查找GDP, CPI, 進口,出口,外資直接投資,零售,銷售,以及國際利率等深度數據。其中的「中國經濟資料庫」收編了300,000多條時間序列數據,數據內容涵蓋宏觀經濟數據、行業經濟數據和地區經濟數據。

- wind(萬得)-

萬得被譽為中國的Bloomberg,在金融業有著全面的數據覆蓋,金融數據的類目更新非常快,據說很受國內的商業分析者和投資人的親睞。

- 搜數網 -

已載入到搜數網站的統計資料達到7,874本,涵蓋1,761,009張統計表格和364,580,479個統計數據,彙集了中國資訊行自92年以來收集的所有統計和調查數據,並提供多樣化的搜索功能。

- 中國統計信息網 -

國家統計局的官方網站,彙集了海量的全國各級政府各年度的國民經濟和社會發展統計信息,建立了以統計公報為主,統計年鑒、階段發展數據、統計分析、經濟新聞、主要統計指標排行等。

- 亞馬遜aws -

http://aws.amazon.com/cn/datasets/?nc1=h_ls

來自亞馬遜的跨科學雲數據平台,包含化學、生物、經濟等多個領域的數據集。

- figshare -

https://figshare.com/

研究成果共享平台,在這裡你會發現來自世界的大牛們的研究成果分享,同時get其中的研究數據,內容很有啟發性,網站頗具設計感。

- github -

https://github.com/caesar0301/awesome-public-datasets

如果覺得前面的數據源還不夠,github上的大神已經為大家整理好了一個非常全面的數據獲取渠道,包含各個細分領域的資料庫資源,自然科學和社會科學的覆蓋都很全面,簡直是做研究和數據分析的利器。

隨便上幾個圖,滿滿的都是資源啊

2

數據交易平台

- 優易數據 -

由國家信息中心發起,擁有國家級信息資源的數據平台,國內領先的數據交易平台。平台有B2B、B2C兩種交易模式,包含政務、社會、社交、教育、消費、交通、能源、金融、健康等多個領域的數據資源。

- 數據堂 -

專註於互聯網綜合數據交易,提供數據交易、處理和數據API服務,包含語音識別、醫療健康、交通地理、電子商務、社交網路、圖像識別等方面的數據。

3

網路指數

- 百度指數 -

大家都很熟悉的指數查詢平台,可以根據指數的變化查看某個主題在各個時間段受關注的情況,進行趨勢分析、輿情預測有很好的指導作用。除了關注趨勢之外,還有需求分析、人群畫像等精準分析的工具,對於市場調研來說具有很好的參考意義。同樣的另外兩個搜索引擎搜狗、360也有類似的產品,都可以作為參考。

- 阿里指數 -

https://alizs.taobao.com/

國內權威的商品交易分析工具,可以按地域、按行業查看商品搜索和交易數據,基於淘寶、天貓和1688平台的交易數據基本能夠看出國內商品交易的概況,對於趨勢分析、行業觀察意義不小。

- 艾瑞諮詢 -

艾瑞作為老牌的互聯網研究機構,在數據的沉澱和數據分析上都有得天獨厚的優勢,在互聯網的趨勢和行業發展數據分析上面比較權威,艾瑞的互聯網分析報告可以說是互聯網研究的必讀刊物。

- 友盟指數 -

友盟在移動互聯網應用數據統計和分析具有較為全面的統計和分析,對於研究移動端產品、做市場調研、用戶行為分析很有幫助。除了友盟指數,友盟的互聯網報告同樣是了解互聯網趨勢的優秀讀物。

- 愛奇藝指數 -

愛奇藝指數是專門針對視頻的播放行為、趨勢的分析平台,對於互聯網視頻的播放有著全面的統計和分析,涉及到播放趨勢、播放設備、用戶畫像、地域分布、等多個方面。由於愛奇藝龐大的用戶基數,該指數基本可以說明實際情況。

- 貓眼專業版-

電影票房統計分析平台,貓眼專業版有實時的票房統計,影片的排盤情況、上座率和影院數據,對於當前電影的分析是必不可少的。

4

網路採集器

網路採集器是通過軟體的形式實現簡單快捷地採集網路上分散的內容,具有很好的內容收集作用,而且不需要技術成本,被很多用戶作為初級的採集工具。

- 火車採集器 -

一款專業的互聯網數據抓取、處理、分析,挖掘軟體,可以靈活迅速地抓取網頁上散亂分布的數據信息,並通過一系列的分析處理,準確挖掘出所需數據,最常用的就是採集某些網站的文字、圖片、數據等在線資源。介面比較齊全,支持的擴展比較好用,懂代碼的話,可以使用PHP或C#開發任意功能的擴展。

- 八爪魚 -

簡單實用的採集器,功能齊全,操作簡單,不用寫規則。特有的雲採集,關機也可以在雲伺服器上運行採集任務。

- 集搜客 -

一款簡單易用的網頁信息抓取軟體,能夠抓取網頁文字、圖表、超鏈接等多種網頁元素,提供好用的網頁抓取軟體、數據挖掘攻略、行業資訊和前沿科技等。

5

網路爬蟲

作為極客們最喜歡的數據收集方式,爬蟲高度的自由性、自主性都使其成為數據挖掘的必備技能,當然精通python等語言是必要前提。

利用爬蟲可以做很多有意思的事情,當然也可以獲取一些從其它渠道獲取不到的數據資源,更重要的是幫你打開尋找和搜集數據的思路。

- 利用爬蟲爬取網路圖片 -

爬取的圖像素材

你看到某個網站上的圖片恰好是你需要的,但是量大單個下載太麻煩,那麼利用爬蟲你可以快速地進行抓取,並可以根據標籤、特徵、顏色等信息進行分類儲存。從此不缺設計素材,不缺美女圖片,連斗圖都多了幾分自信。

- 利用爬蟲爬取高質量資源 -

爬取的音樂資源

我們總是想快速地去搜集高質量的網路資源,但是人工查找比對實在太麻煩,利用爬蟲你就可以輕鬆解決。比如爬取知乎點贊最多的文章列表,爬取網易雲音樂評論最多的音樂,爬取豆瓣網高評分的電影或圖書……總之,你可以從此拒絕平庸。

- 利用爬蟲獲取輿情數據 -

爬取的某招聘網站職位信息

比如你可以批量爬取社交平台的數據資源,可以爬取網站的交易數據,爬取招聘網站的職位信息等,可以用於個性化的分析研究。

總之,爬蟲是非常強大的,甚至有人說天下沒有不能爬的網站,因而爬取數據也成為了很多極客的樂趣。開發出高效的爬蟲工具可以幫助我們節省很多時間,可以完全按照自己的需求來訂製,想想這個世界就太美好。

6

小工具

- Web Plot Digitizer -

http://arohatgi.info/WebPlotDigitizer/app/

比如我們在查看期刊文獻的時候看到一張成型的圖表,但其本身數據是缺失的,你想獲得這個圖表的相關數據怎麼辦?有了這個小工具就非常easy了。直接上傳我們需要獲得數據的圖表,如下:

然後我們就會獲得如下的數據反饋,感覺運籌帷幄有木有,對於一些不需要十分精確的分析研究足夠使用。

當然並不推薦用這個作為量化分析的依賴,對於定性的分析,做ppt級的數據統計分析就足夠了。

- you-get -

https://you-get.org/

這是一個程序員基於python 3開發的項目,已經在github上面開源,支持64個網站,包括優酷、土豆、愛奇藝、b站、酷狗音樂、蝦米……總之你能想到的網站都有! 還有一個黑科技的地方,即使是名單上沒有的網站,當你輸入鏈接,程序也會猜測你想要下載什麼,然後幫你下載。

下載優酷視頻

批量下載圖片

當然you-get要在python3環境下進行安裝,用pip安裝好後,在終端輸入「you get+你想下載資源的鏈接」就可以等著收藏資源了。

7

數據導航

收集數據是一種能力,學習收集數據也是一種能力,數據的來源是沒有窮盡的,轉換一種思維,你就可以獲得不一樣的數據,下面推薦幾個可以用到的大數據導航,從這裡面你可能會發現一些你自己想要的東西。每個人喜歡的收集數據的渠道不盡相同,只有盡量多地去見識和實踐才會發現更多的適合自己的數據獲取方式。

- 199IT大數據導航 -

- 數據分析網導航 -

- 大數據人導航 -

在互聯網高度發達的今天,數據資源異常的豐富和龐大,如何高效地獲取數據成為一種重要的能力,畢竟獲取數據是一切用數據說話的前提。當然往往只需要熟練掌握一兩種方法,便足夠大多數人應付大多數場景和需求,所以選擇合適的數據獲取渠道還需要親自探究。

來源:DataCastle數據城堡

上海財經大學 股票系統化課程

頂尖職業一線操盤手

實戰投資策略分析師

民間高手達人帶你

全面培養操盤手技能

解析操盤手實際操作過程,迅速提升盤感

捕捉暴力黑馬股,解密K線圖管控實戰風險

實現自我提升長久盈利雙贏目標

第十九期一階段:(8月19日 - 8月23日)

第十九期二階段:(9月9日 - 9月13日)

第二十期一階段:(10月21日 - 10月25日)

第二十期二階段:(11月11日 - 11月15日)

第二十一期一階段:(12月16日 - 12月20日)

第二十一期二階段:(2018年1月6日 - 1月10日)

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大數據實驗室 的精彩文章:

十年之內堅決不能死……
這些年不容錯過的人工智慧電影
如何在人工智慧大數據時代有效建立起自己的優勢
一文讀懂遺傳演算法工作原理
分散式資料庫概述

TAG:大數據實驗室 |

您可能感興趣

比特幣的獲取方式,看這裡你就知道
體驗服爆盤古免費獲取方式,方法竟然如此簡單,但很多人卻不知道
火影中可以直接獲取能量的方式,有一種很奇葩,你知道幾種?
斗羅大陸:魂環魂骨的獲取方法,前兩種都知道,但是最後一種卻沒幾個人知道
一個人到學校上課,不僅是為了獲取一份知識,而更應獲得更多方面的學習能力
你有哪些靠譜的「知識獲取渠道」?
知道怎麼獲取不錯的盆景樹樁?這可是門學問
獲取人生第一枚比特幣的方法,全知道的人沒幾個
展會依然是獲取訂單的最快渠道,沒有之一
不能獲取知識的百萬答題,除了錢,還有啥?
飛天皮膚2種獲取方法,你只知道登錄免費送,卻不知隱藏的一種
如何免費獲取愛奇藝年卡會員?這個方法你一定不知道!
人類獲取知識的效率已經越來越高,未來會怎樣獲取知識
通過否定別人來獲取優越感,是一種病?
其他人從哪裡獲取行業信息,你想知道嗎?
人類是否能從黑洞中 獲取這些能量?
日軍在戰爭中獲取我軍情報,可認識字卻不懂其意,只因用一個方法
修道感悟,很多人不知道我們還需要從虛空中獲取能量!
別不信!只有不斷地寵,才會獲取這些星座的真心
免費獲取稀有皮膚活動,九成玩家都不知道,網友:錯過了一個億!