當前位置:
首頁 > 最新 > 數據分析師入門

數據分析師入門

感受數據的魅力。

近些年數據體量隨著互聯網規模越來越龐大而爆髮式增長,讓很多人意識到,數據價值時代已經來臨,正如馬雲所說,驅動未來製造業的最大能源將是數據,大數據無處不在,驅動業務增長的同時,也拉進了行業之間的距離,原本陌生的兩人到後來我們會發現其實早有交集。

不知道看到本文的你是否也和之前的我一樣,倉促之間開始打算著手學習數據分析,然後便是大量的尋找教材,但卻發現不成體系,收藏的資料越來越多,但是卻狗咬刺蝟無從下嘴,總是在基礎部分打轉。

本系列將作為數據分析師入門,從零基礎分析經驗,無任何編程基礎的角度,進行學習經驗的分享和自我記錄。

無處不在的數據

大家平時最常看到的,莫過於使用微信的時候,比如朋友圈你的每一次微信、微博的點贊、評論及轉發,都會在原基礎上又一個新的條目,這樣便是數據被記錄了下來,那麼這樣的數據有什麼用途呢?

舉個栗子,美國總統大選的時候,facebook就可以使用他的用戶數據進行用戶傾向分析,通過社交大數據,判斷用戶對候選人的情感表現,便得出民眾的選票意向。要知道facebook的用戶量是非常巨大的,通過facebook的社交大數據分析,可以在短時間內獲取到相當大容量的選民意向,這可比樣本調查來說效率要高得多,自然費用也要低得多。

數據分析應用最廣泛的應該是金融領域,比如股票信息,公司財報,信用評估等等,畢竟經濟基礎決定了上層建築,哪怕分析應用提高的成功率僅僅只有零點幾的百分比,可能在金融領域都能產生成百上千億的經濟效益。

還有比如手機導航通過分析歷史出行高峰自動匹配出行路線;公交車卡分析用戶上下車密集點,從而優化公交路線;醫療影像智能分析腫瘤,結節,輔助醫生進行診斷等等。可以說任何人無時無刻都在為數據做了貢獻,而任何數據都有其內在的價值,數據分析師要做的,就是通過分析、解釋、探索數據,去驅動業務的發展,更甚至是人類文明的進步。

數據分析的流程

我們在上學的時候做實驗,每一次探究的過程,其實都有一個固定的模板,大體我們可以總結為:發現問題,驗證問題,得出結論,分析原因。

數據分析師的分析流程,框架同樣可以簡單的認為是:

定義一個問題:比如最近一段時間當地空氣是好是壞?

獲取數據:當地空氣質量讀數

數據清洗:有時候數據獲取時並不是很完整,有重複,或者確實

數據分析、建模:給出是變好還是變差的結論,並且分析是什麼原因

數據展示

數據獲取

定義問題完了之後,我們就將面臨數據的獲取,解決數據分析所需要的數據從哪裡來的問題,這裡提供了兩個途徑:

從開放的數據網站獲取數據集,比如國家統計局,各個行業的協會等等,另外還可以從組織演算法競賽的網站獲取,一般來說,如kaggle這類網站,通常會舉辦一些基於真實業務數據的演算法競賽。

編寫網路爬蟲,本系列主要是使用python進行數據爬取,將在後續進行展開

數據存儲與清洗

在獲取了相應數據之後,如果碰到數據體量很大,我們使用了excel這類的工具的話,可能對我們後期打開,查閱的行為帶來不好的體驗,換句話說就是文件會很大,處理起來會很艱難,因此我們這一步使用資料庫進行存儲數據,熟練掌握資料庫的各項功能,也是一名數據分析師應該具備的能力。

數據分析與建模

等我們把基礎數據處理完畢 ,數據分析的前奏基本就結束了,接下來我們要解決的問題就是數據分析背後的原理和假設是什麼,針對不同的問題,我們又有那些不同的技術和模型去進行合理的分析,這些都是我們需要在實際分析過程中注意的地方,包括運用到的極限定理、大數定理等統計學原理,假設檢驗、回歸等分析技術不一而足。

工具

在接下來的數據分析學習過程中,我們會使用到分析利器anaconda,一種腳本語言python,以及關係型資料庫管理系統mysql。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 JoJoLeo 的精彩文章:

TAG:JoJoLeo |