通過Excel進行數據採集
前言
IBM大中華區總經理胡世忠曾說:數據構成了智慧地球的三大元素——智能化、互聯化和物聯化,而這三大元素又改變了數據來源、傳送方式和利用方式,帶來「大數據」這場信息社會的變革。
從上可見,時代的變革是源於對數據的利用,對企業而言,數據也同樣是其發展、轉型的命脈。在工作中,我的前輩不止一次地強調,數據是公司的資產,而且舉足輕重。我們對待數據,一定要嚴謹,經得起考驗,對自己的數據負責,這是一個數據人的基本要求。
數據資源
大數據時代,數據雖然很多,但是也不是隨意得來的,需要利用各種渠道和方式獲得。不管從哪個角度來說,數據可分為內部數據和外部數據。內部數據是企業在日積月累的經營中得來的,我們應該對這些數據挖掘、收集有價值的東西,形成企業的數據資產。內部數據重在後期的處理和分析上。
下面先說外部數據的獲取方式,以及通過Excel操作來獲取外部數據。
外部數據獲取方式
1、專業網站看數據(某一個行業、某一件產品)
2、通過收費渠道買數據(第三方數據平台等)
3、通過特殊形式引數據(網站爬蟲,統計網站等)
4、自身積累數據(時間久、跨度長)
Excel獲取外部數據
作為一個數據分析師以及想更進一步成長為數據科學家,熟練操作基本的辦公軟體以及SQL查詢是很重要的。請看下面通過Excel獲取外部數據的步驟。
第1步:打開「新建web查詢」框。新建Excel工作簿,在打開的工作表中單擊「數據」選項卡,然後在「獲取外部數據」組中單擊「自網站」按鈕,如下圖。
第2步:輸入網址並選擇要導入的表格數據。在彈出的「新建web查詢」對話框中的「地址」文本框中複製粘貼上述網頁的網址,然後單擊「轉到」,找到網站中的表格數據後單擊表格左上角的箭頭,圖標變成選中狀態的複選框√。如下圖。最後單擊下方的「導入」按鈕。
第3步:選擇數據的放置區域。點擊導入後,Excel會出現「導入數據」對話框,如下圖,選中你想放置的單元格,單擊「確定」開始導入。
第4步:美化導入的數據。由於導入的數據多且亂,要調整格式使數據規範,並啟用凍結窗格功能方便瀏覽。如下圖。
好了,上面就是通過Excel操作來獲取網站上的外部數據,很簡單吧,但網站中的數據並非都是以表格的形式呈現,現在大部分是以json格式呈現,Excel不是萬能的,而且現在很多網站需要付費才能導數據(上面說過數據就是企業的資產)。
小結
希望通過上面的操作能幫助大家。如果你有什麼好的意見,建議,或者有不同的看法,我都希望你留言和我們進行交流、討論。
![](https://pic.pimg.tw/zzuyanan/1488615166-1259157397.png)
![](https://pic.pimg.tw/zzuyanan/1482887990-2595557020.jpg)
TAG:Airy |
※Snapchat推出3D Friendmojis進行社交互動
※通過Google Expeditions和Virtual Tours進行
※使用pdb進行Python調試
※三星將停止對Galaxy Note 5和S6 Edge +進行系統更新
※bcftools進行SNP calling
※2018 UOD舉行Epic Games創始人Tim Sweeney進行主題演講
※Allevi和Made In Space合作推出新計劃:在外太空進行生物3D列印
※官網進行大規模發售!BAPE x adidas Dame 4開賣信息再次確認!
※微軟計劃收購Discord 將與Xbox Live進行整合
※Telegram發布Telegram Passport,對ICO等數據進行加密
※【網路研討會】通過PowerVR圖形內核引入PVRTune Complete進行性能分析
※通過Google Expeditions和Virtual Tours進行沉浸式教育
※使用Apache的ab進行壓力測試
※基因共享經濟平台mygenomebox 將通過ICO進行DNA交易
※MediaCodec進行音頻合成
※Python數據處理實戰——使用Scikit-Learn進行多類文本分類
※使用pdb進行Python調試(下篇)
※使用 VS Code 進行 Python 編程
※OnePlus5安卓8.1Oreo現在通過 Open Beta 6進行測試
※使用Excel進行時間管理