Python數據分析常見庫介紹之Pandas

最新 06-26

Pandas是Python的一個數據分析包，它名稱來源於面板數據（Panel Data）和Python數據分析（Data Analysis），可以說它是Python下最強大的數據分析與探索工具。Pandas納入大量庫和標準數據模型，提供高效的操作數據集所需的工具，使得在Python處理數據變得非常簡單和快速。和Scipy一樣，Pandas也是構建在Numpy之上。因此，Pandas在安裝好Numpy後就可以安裝。注意：默認的Pandas還不能讀寫Excel文件，需要安裝xlrd（讀）庫和xlwt（寫）庫才能支持Excel的讀寫。

數據結構

Pandas基本的數據結構是Series和DataFrame。Series就是序列，類似於一維數組，而DataFrame則類似於二維數組，它的每一列都是一個Series。

Series

為了定位Series中的元素，Pandas提供了index對象，每個Series都會帶有一個對應的index，用來標記不同的元素，index不一定是數字，也可能是字母等。

Dataframe

DataFrame是表格型數據結構，包含一組有序的列，每列可以是不同的類型。DataFrame有行索引和列索引，可以看成由Series組成的字典。

DataFrame也可以通過特定的方式創建，同Spark SQL中的DataFrame一樣，其概念來自於R語言，因此，對DataFrame的操作類似於SQL語句。

Series和DataFrame都可以執行一些數學計算操作，比如sum()，min()等。

讀取數據

我們從csv或者Excel文件中讀取到了數據，並將他們存入了dataframe中。我們只需要調用read_csv函數或者read_excel函數並將文件的路徑作為函數參數即可。header關鍵字告訴Pandas這些數據是否有列名。如果沒有列名，你可以將其置為None。Pandas非常智能，所以你可以省略這一關鍵字。

缺失值處理

Pandas用numpy.nan表示缺失值，不參與計算。

判斷何處缺失：

去掉缺失行：

填充缺失行：

Pandas的功能十分強大，要想詳細介紹它的工具，寫一本書都能難以描述完。鑒於在之後的文章推送中會頻繁使用Pandas，因此，這裡就不進行詳細的介紹，如果你有什麼疑惑，建議參考《利用Python進行數據分析》一書。

除了進行數據處理之外，Pandas也可以進行數據可視化，比如：

折線圖：