Python數據分析常見庫介紹之Pandas
Pandas是Python的一個數據分析包,它名稱來源於面板數據(Panel Data)和Python數據分析(Data Analysis),可以說它是Python下最強大的數據分析與探索工具。Pandas納入大量庫和標準數據模型,提供高效的操作數據集所需的工具,使得在Python處理數據變得非常簡單和快速。和Scipy一樣,Pandas也是構建在Numpy之上。因此,Pandas在安裝好Numpy後就可以安裝。注意:默認的Pandas還不能讀寫Excel文件,需要安裝xlrd(讀)庫和xlwt(寫)庫才能支持Excel的讀寫。
數據結構
Pandas基本的數據結構是Series和DataFrame。Series就是序列,類似於一維數組,而DataFrame則類似於二維數組,它的每一列都是一個Series。
Series
為了定位Series中的元素,Pandas提供了index對象,每個Series都會帶有一個對應的index,用來標記不同的元素,index不一定是數字,也可能是字母等。
Dataframe
DataFrame是表格型數據結構,包含一組有序的列,每列可以是不同的類型。DataFrame有行索引和列索引,可以看成由Series組成的字典。
DataFrame也可以通過特定的方式創建,同Spark SQL中的DataFrame一樣,其概念來自於R語言,因此,對DataFrame的操作類似於SQL語句。
Series和DataFrame都可以執行一些數學計算操作,比如sum(),min()等。
讀取數據
我們從csv或者Excel文件中讀取到了數據,並將他們存入了dataframe中。我們只需要調用read_csv函數或者read_excel函數並將文件的路徑作為函數參數即可。header關鍵字告訴Pandas這些數據是否有列名。如果沒有列名,你可以將其置為None。Pandas非常智能,所以你可以省略這一關鍵字。
缺失值處理
Pandas用numpy.nan表示缺失值,不參與計算。
判斷何處缺失:
去掉缺失行:
填充缺失行:
Pandas的功能十分強大,要想詳細介紹它的工具,寫一本書都能難以描述完。鑒於在之後的文章推送中會頻繁使用Pandas,因此,這裡就不進行詳細的介紹,如果你有什麼疑惑,建議參考《利用Python進行數據分析》一書。
除了進行數據處理之外,Pandas也可以進行數據可視化,比如:
折線圖:
但其實,在Python裡面,有更適合進行繪圖的庫,那就是Matplotlib,在下一次的推送中,我們將進行較為詳細的介紹。
※Python如何自動下載文件
※三步教你如何使用RT-Thread MicroPython搭建一個Web伺服器
TAG:Python |