當前位置:
首頁 > 最新 > Python數據分析常見庫介紹之Pandas

Python數據分析常見庫介紹之Pandas

Pandas是Python的一個數據分析包,它名稱來源於面板數據(Panel Data)和Python數據分析(Data Analysis),可以說它是Python下最強大的數據分析與探索工具。Pandas納入大量庫和標準數據模型,提供高效的操作數據集所需的工具,使得在Python處理數據變得非常簡單和快速。和Scipy一樣,Pandas也是構建在Numpy之上。因此,Pandas在安裝好Numpy後就可以安裝。注意:默認的Pandas還不能讀寫Excel文件,需要安裝xlrd(讀)庫和xlwt(寫)庫才能支持Excel的讀寫。

數據結構

Pandas基本的數據結構是Series和DataFrame。Series就是序列,類似於一維數組,而DataFrame則類似於二維數組,它的每一列都是一個Series。

Series

為了定位Series中的元素,Pandas提供了index對象,每個Series都會帶有一個對應的index,用來標記不同的元素,index不一定是數字,也可能是字母等。

Dataframe

DataFrame是表格型數據結構,包含一組有序的列,每列可以是不同的類型。DataFrame有行索引和列索引,可以看成由Series組成的字典。

DataFrame也可以通過特定的方式創建,同Spark SQL中的DataFrame一樣,其概念來自於R語言,因此,對DataFrame的操作類似於SQL語句。

Series和DataFrame都可以執行一些數學計算操作,比如sum(),min()等。

讀取數據

我們從csv或者Excel文件中讀取到了數據,並將他們存入了dataframe中。我們只需要調用read_csv函數或者read_excel函數並將文件的路徑作為函數參數即可。header關鍵字告訴Pandas這些數據是否有列名。如果沒有列名,你可以將其置為None。Pandas非常智能,所以你可以省略這一關鍵字。

缺失值處理

Pandas用numpy.nan表示缺失值,不參與計算。

判斷何處缺失:

去掉缺失行:

填充缺失行:

Pandas的功能十分強大,要想詳細介紹它的工具,寫一本書都能難以描述完。鑒於在之後的文章推送中會頻繁使用Pandas,因此,這裡就不進行詳細的介紹,如果你有什麼疑惑,建議參考《利用Python進行數據分析》一書。

除了進行數據處理之外,Pandas也可以進行數據可視化,比如:

折線圖:

但其實,在Python裡面,有更適合進行繪圖的庫,那就是Matplotlib,在下一次的推送中,我們將進行較為詳細的介紹。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Python 的精彩文章:

Python如何自動下載文件
三步教你如何使用RT-Thread MicroPython搭建一個Web伺服器

TAG:Python |