Python數據分析專題今起開篇!
在過去兩個月的時間裡,小編主要分享了Python及爬蟲相關基礎知識。
由於小編對Python的數據分析方向比較感興趣,所以準備先從該方向進行深入學習;而Python的其他方向則會在小編學有餘力的情況下進行學習分享。
下面說下利用Python進行數據分析時用到的主要工具:
一:解釋器
推薦使用 Ipython的shell解釋器,可能你們已經有人在用了,不得不說交互體驗非常棒。安裝起來也很方面,同之前介紹到的第三方庫的安裝方法類似,下面舉例是基於windows操作系統
打開命令窗口
輸入執行pip install ipython
即可自行安裝
Ipython的快捷命令:
- Ctrl-P 或上箭頭鍵 後向搜索命令歷史中以當前輸入的文本開頭的命令
- Ctrl-N 或下箭頭鍵 前向搜索命令歷史中以當前輸入的文本開頭的命令
- Ctrl-R 按行讀取的反向歷史搜索(部分匹配)
- Ctrl-Shift-v 從剪貼板粘貼文本
- Ctrl-C 中止當前正在執行的代碼
- Ctrl-A 將游標移動到行首
- Ctrl-E 將游標移動到行尾
- Ctrl-K 刪除從游標開始至行尾的文本
- Ctrl-U 清除當前行的所有文本
- Ctrl-F 將游標向前移動一個字元
- Ctrl-b 將游標向後移動一個字元
- Ctrl-L 清屏
二:第三方庫
利用Python進行數據分析時,用的較多的就是Numpy、Pandas及Matplotlip庫。安裝方法同上執行: pip install 庫名
NumPy
是一個開源的Python科學計算基礎庫,目前來看也是python進行科學計算和數據分析的最基礎的第三方庫,NumPy的功能主要包含以下一些方面:
1.一個強大的N維數組對象ndarray
2.一組廣播功能函數,用來在數組之間進行計算
3.整合C/C++/Fortran等代碼的工具
4.線性代數、傅里葉變換、隨機數生成等功能
在進行數據分析時,使用最多的可能是多維數組的創建這一點。
Pandas庫
是基於NumPy 的一種工具,是為了解決數據分析任務而創建的。pandas庫中包含的幾種數據結構,使用較多的是Series(一維數組,類似於numpy的一維數組)和DataFrame(二維數組),別的還有比如 :Time- Series(以時間為索引的Series)、Panel (三維的數組,可以理解為DataFrame的容器)。
Matplotlip庫
該庫主要是結合其他庫進行數據的可視化操作。
在此期間可能會涉及到別的庫的使用,屆時會詳細說明。
三:數據分析專題大致框架
數據分析框架圖
(1):數據準備
(2):數據處理
(3):數據分析
(4):數據可視化
(5):數據分析實戰
五個步驟功能的實現都是基於上面提到的第三方庫及數據來進行的。
TAG:Python |