數據分析的流程

提出問題是數據分析的出發點，出發點不明確的話，數據分析也像無頭蒼蠅。

出發點一般分為兩類：驗證型和探索性

驗證型驗證型一般針對已經發生的業務現象，比如這今天的gmv突然從昨天的100萬跌倒了30萬，這個時候出發點就是：gmv下跌的原因。這個時候就從下跌的關聯數據開始分析為什麼下跌，得出結論後提出對應的解決方案。

而探索性一般針對未知，比如針對用戶的購買記錄進行價值分層，這個時候的出發點是：用戶價值分層。這個時候就沒有一個明確的業務現象，而是需要去探索如何定義價值分層，並通過哪些維度來實現，實現了分層之後對經營的建議。

要想分析，必須要先有數據。數據源可以分為外部和內部兩種，這裡重點針對內部數據，分析得最多的一般也是內部數據。

外部數據源一般包括爬蟲數據&行研數據等，外部數據一般都需要花費較大的數據清晰的精力。內部數據源一般指的是平台用戶使用產品所產生的各種行為數據，以電商行業為例，用戶的瀏覽記錄，uv&pv，購買記錄等。

內部數據獲取及清洗一般使用 sql+excel+python的形式。

sql的話算是數據分析師的必備技能，常見的要分清 jion的各種用法，group by分組以及常見的函數如 sum() avg() count() 高級點如窗口函數等。

除了sql的代碼技能，就是要設計好取數口徑。一般通用的指標沒有特別口徑，如果涉及到特定用戶行為的挖掘分析，就要多復盤幾遍代碼是否有遺漏和邏輯是否正確。

盡量可以再sql里完成部分的清洗和計算，這樣出來的樣本數據比較乾淨省心。

拿到sql跑完的數據可不是直接不久能用的，還要進行處理和認知，數據處理一般針對臟數據和缺失數據。

對於臟數據一般是做刪除處理，比如已經註銷的無效用戶。另一個就是缺失值的處理，對缺失值可以進行填充或者刪除。

填充一般使用欄位的中位數或者算數平均值，如果值波動很大使用中位數，波動不大可以使用算數平均值。還有一種填充方案是使用其他欄位或者臨近記錄的欄位值。

刪除是需要慎重考慮的，雖然欄位值有缺失但是這個欄位值一樣可以傳遞數據信息。舉例一個用戶的首次購買時間欄位是空值，這個時候空值傳遞的信息是這個用戶並沒有完成購買轉化。

數據認知主要是對值的分布有一個大概了解，數據是不是異常分布的。一般可以通過算數平均值&中位數&方差等了解到。

在完成數據認知後，有的時候要再要對數據進行處理，視分析的目的而定。舉個例子：在分析普通用戶的購買金額轉化分布時候，特大客的金額最好是要剔除的，否則將會影響一般用戶的結論描述。

在模型分析階段主要用tableau+python

常用的模型有

漏斗模型

矩陣模型

用戶價值分層模型

購物籃模型

留存模型

回歸模型

先寫這麼多，留坑待填

而且在分析的過程中，結論是一點一點明朗的。

得出了結論後，數據分析師並不能只交個結論啊，還要結合當前的業務現狀對結論做出解讀和方案的建議。

大家都在講數據驅動業務，但是很多公司其實都沒有做到或者做好，也很難做好。

報告的話就是可視化了基本，老闆都喜歡圖，直觀易懂，沒有人會願意看一大堆文字。文集里也在連載可視化的文章，首選tableau，python也有很多包可以用。

做數據分析，得出結論和方案不算很難，難的是如何推動數據結果落地。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 爾量的雜貨鋪 的精彩文章: