數據分析課程筆記(七)
最新
09-02
數據分析課程筆記(七)
NumPy和Pandas
這兩者都是python的擴展庫,用於做數值計算和統計。它們最基礎的數據結構都是數組。NumPy的數組是array,Pandas的數組是series。
與python自帶的list相比,它們顯然更高級了,但pd比np還高級一些。接下來對比一下list與np的區別。
最方便的功能(估計也是最常用的)就是求一些statistic。至於其它的,大概要算它的運算速度比list快,聽說因為它採用的是c語言編寫的,python本身是shell語言,比c慢。
接下來是pd與np區別:
首先,pd包含了一些額外的函數,如describe,然後pd的數組可以使用index,也就是所謂的索引。如圖:
以上是python中list、pd、np的對比。接下來記錄一些python的運演算法則。在這方面,相比於c,它更類似與matlab。
如圖所示,兩個數組相加,在python中得到的是兩者的結合,而在np中與pd中得到的則是對應位置的和,類似於向量。同樣,如果用標量乘以向量,是對應位置相乘,而在python默認環境中是重複多次。比如1 2 3 * 3 = 1 2 3 1 2 3 1 2 3
除此之外,還有一些特別的操作:
其中最有意思的應該是最後一列的比較算符。它得到的是一個bool型向量。而用這個向量與另一個長度相同的向量搞基,就得到這樣的效果:
這用起來很方便。比如要求一個數組中高於平均值的元素,直接寫:return a[a>a.mean()]


TAG:何紫朝的一畝三分地 |