當前位置:
首頁 > 最新 > 數據分析師入門該學些啥

數據分析師入門該學些啥

作為轉行學習數據分析,自然看了不少文章,走了不少彎路,學了不少有用沒用的,下面推薦一篇入門該學習的文檔手冊。這本手冊包含了入門需要掌握的技能,包括python、爬蟲、資料庫、統計分析知識、機器學習知識。必備的工具主要是anaconda(數據科學強烈推薦),MySQL。

主要分為以下幾個部分:

Python 基礎語法

數據類型:字元串、布爾型、整數、浮點數、列表、元組、字典、集合等; 運算符:Python主要的運算符有數學運算符、邏輯運算符、比較運算符;

表達式:由值、變數、運算符組成;

控制流:Python有三種控制流,if/for/while來控制表達式執行的順序;

函數、變數作用域(局部和全局)、lambda函數:使得代碼變得更簡潔和更具有可遷移性;

字元串操作:替換、刪除、截取、複製、連接、比較、查找、包含、大小寫轉換、去空格、分割等;

數據操作:數據索引、切片、添加、插入、移除、排序等方法;

正則表達式:使用正則表達式可以實現模糊匹配、替換和拆分。

SQL基礎知識

建立表:SQL語句操作的對象是表格,表格的建立是操作的基礎,可以使用CREATE命令進行建立;

插入、更新和刪除數據:建立了表格之後需要使INSERT,DELETE,DROP來對表格進行更進一步的插入新值新列、刪除部分數據、刪除整張表的操作。

數據檢索:用SELECT語句來實現檢索功能,它是最經常被使用到的SQL語句;

數據排序:ORDER BY語句;

數據過濾:WHERE語句限定了搜索的條件;BETWEEN/IN/NOT操作符限定了查詢值的範圍;AND/OR操作符表達搜索條件間的邏輯關係;數據匯總和分組可以使用GROUP BY語句。

子查詢:可以嵌套在主查詢的SELECT,WHERE,FROM,GROUP BY等位置,使用子查詢可以寫出具有更複雜功能的SQL語句,使得查詢更加靈活。

組合查詢:使用UNION操作符,連接多個SELECT語句,把多條查詢結果當做一條組合查詢返回,大大簡化了查詢的複雜程度。

關係型資料庫的設計方便了處理和提高了存儲的效率,然而卻帶來了一個問題,就是跨表的查詢。聯結是一種機制,用於關聯不同的表。

基本概念:主鍵、外鍵。

種類:內部聯結;自然聯結;外部聯結;帶聚集函數的聯結。

LIKE操作符支持的通配符:可以用於匹配搜索值的某一部分,來實現數據的過濾。

python數據分析與可視化

數據分析(NumPy/Pandas)

Python數據可視化,常用的Python可視化工具包有:matplotlib、seaborn等。

機器學習

監督學習:線性回歸,邏輯回歸,決策樹,樸素貝葉斯、最近鄰等演算法

無監督學習:聚類演算法、降維演算法等。

scikit-learn是一個開源學習模塊,為用戶提供了許多機器學習的演算法介面,可以使用Python直接調用。

這些都只是一些入門需要掌握的內容,最重要的還是多實踐、多練習。通時也要養成數據分析師思考問題的習慣:

問題的重要性(為什麼要分析這個問題?)

問題的準確定義(可以以假設檢驗的方式寫出)

如何選擇分析所使用的數據集(數據來源是否可靠,內容是否充分?)

問題分析所採用的方法(方法是否適用?)

數據分析預處理(如何生成訓練集、測試集)

分析結果所採用的評價指標

要清楚分析所使用的方法以及數據集的局限在哪裡

最後就是要學會寫數據分析報告,因此會ppt,數據可視化軟體也是很重要的。

學習最重要的是持之以恆,不間斷的學習加上練習,肯定能取得非常好的效果。今天展示的是入門需要掌握的一些知識,在以後,我會逐漸通過這些知識,完成一些有意思的項目,深入了解學習每一個功能模塊。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 木木學數據 的精彩文章:

我為什麼開始學數據

TAG:木木學數據 |