當前位置:
首頁 > 最新 > 數據分析的流程

數據分析的流程

以我的數據日常為例,簡單將數據分析的流程梳理一下。

數據的整個流程可以劃分為

數據目的

數據獲取

數據處理及認知

模型分析

數據結論及方案

數據報告


明確數據目的

提出問題是數據分析的出發點,出發點不明確的話,數據分析也像無頭蒼蠅。

出發點一般分為兩類:驗證型和探索性

驗證型驗證型一般針對已經發生的業務現象,比如這今天的gmv突然從昨天的100萬跌倒了30萬,這個時候出發點就是:gmv下跌的原因。這個時候就從下跌的關聯數據開始分析為什麼下跌,得出結論後提出對應的解決方案。

而探索性一般針對未知,比如針對用戶的購買記錄進行價值分層,這個時候的出發點是:用戶價值分層。這個時候就沒有一個明確的業務現象,而是需要去探索如何定義價值分層,並通過哪些維度來實現,實現了分層之後對經營的建議。


要想分析,必須要先有數據。數據源可以分為外部和內部兩種,這裡重點針對內部數據,分析得最多的一般也是內部數據。

外部數據源一般包括爬蟲數據&行研數據等,外部數據一般都需要花費較大的數據清晰的精力。內部數據源一般指的是平台用戶使用產品所產生的各種行為數據,以電商行業為例,用戶的瀏覽記錄,uv&pv,購買記錄等。

內部數據獲取及清洗一般使用 sql+excel+python的形式。

sql的話算是數據分析師的必備技能,常見的要分清 jion的各種用法,group by分組以及常見的函數如 sum() avg() count() 高級點如窗口函數等。

除了sql的代碼技能,就是要設計好取數口徑。一般通用的指標沒有特別口徑,如果涉及到特定用戶行為的挖掘分析,就要多復盤幾遍代碼是否有遺漏和邏輯是否正確。

盡量可以再sql里完成部分的清洗和計算,這樣出來的樣本數據比較乾淨省心。


拿到sql跑完的數據可不是直接不久能用的,還要進行處理和認知,數據處理一般針對臟數據和缺失數據。

對於臟數據一般是做刪除處理,比如已經註銷的無效用戶。另一個就是缺失值的處理,對缺失值可以進行填充或者刪除。

填充一般使用欄位的 中位數或者算數平均值,如果值波動很大使用中位數,波動不大可以使用算數平均值。還有一種填充方案是使用其他欄位或者臨近記錄的欄位值。

刪除是需要慎重考慮的,雖然欄位值有缺失但是這個欄位值一樣可以傳遞數據信息。舉例一個用戶的首次購買時間欄位是空值,這個時候空值傳遞的信息是 這個用戶並沒有完成購買轉化。

數據認知主要是對值的分布有一個大概了解,數據是不是異常分布的。一般可以通過 算數平均值&中位數&方差等了解到。

在完成數據認知後,有的時候要再要對數據進行處理,視分析的目的而定。舉個例子:在分析普通用戶的購買金額轉化分布時候,特大客的金額最好是要剔除的,否則將會影響一般用戶的結論描述。


在模型分析階段主要用tableau+python

常用的模型有

漏斗模型

矩陣模型

用戶價值分層模型

購物籃模型

留存模型

回歸模型

先寫這麼多,留坑待填

而且在分析的過程中,結論是一點一點明朗的。


得出了結論後,數據分析師並不能只交個結論啊,還要結合當前的業務現狀對結論做出解讀和方案的建議。

大家都在講數據驅動業務,但是很多公司其實都沒有做到或者做好,也很難做好。

報告的話就是可視化了基本,老闆都喜歡圖,直觀易懂,沒有人會願意看一大堆文字。文集里也在連載可視化的文章,首選tableau,python也有很多包可以用。

做數據分析,得出結論和方案不算很難,難的是如何推動數據結果落地。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 爾量的雜貨鋪 的精彩文章:

TAG:爾量的雜貨鋪 |