一文盤點三大頂級Python庫
來源:開源最前線
本文約1500字,建議閱讀5分鐘。
本文為你分享最受數據科學青睞的3個頂級的Python庫。
Python在許多方面有著強大的吸引力 - 例如效率、代碼可讀性和速度方面,也正因為如此,對於希望提升應用程序功能的數據科學家和機器學習專家來說,Python通常是首選編程語言。(例如,Andrey Bulezyuk使用Python編程語言創建了一個很牛逼的機器學習應用程序。)
由於其廣泛的用途,Python擁有大量的庫,使數據科學家可以更輕鬆地完成複雜的任務,而無需面對很多編程麻煩。以下是最受數據科學青睞的3個頂級的Python庫,如果你正需要,那就試試吧。
1. NumPy
NumPy(Numerical Python的縮寫)是頂級的庫之一,它配備了大量有用的資源來幫助數據科學家將Python變成強大的科學分析和建模工具。這個流行的開源庫可以在BSD許可下使用。它是在科學計算中執行任務的基礎Python庫。NumPy是一個更大的基於python的開源工具生態系統SciPy的一部分。
這個庫為Python提供了大量的數據結構,可以輕鬆地執行多維數組和矩陣計算。除了用於求解線性代數方程和其他數學計算之外,NumPy還被用作不同類型通用數據的通用多維容器。
此外,它能夠完美集成其他編程語言,如C/ c++和Fortran。NumPy庫的多功能性使它能夠輕鬆快速地與各種資料庫和工具相結合。例如,讓我們看看如何使用NumPy(縮寫為np)來相乘兩個矩陣。
從導入庫開始(對於這些示例,我們將使用Jupyter筆記本)。
接下來,讓我們使用eye()函數生成具有規定維數的單位矩陣:
輸出結果如下:
讓我們生成另一個3x3矩陣。
我們將使用arange([起始號碼]、[停止號碼])函數來排列數字。注意,函數中的第一個參數是要列出的初始數字,最後一個數字不包含在生成的結果中
此外,reshape()函數用於將原始生成的矩陣的維數修改為所需的維數。為了使矩陣「可乘」,它們應該具有相同的維度。
輸出如下:
讓我們使用dot()函數乘以兩個矩陣:
輸出如下:
接著,我們設法在不使用vanilla Python的情況下將兩個矩陣相乘。以下是此示例的完整代碼:
2. Pandas
panda是另一個可以提高您的Python數據科學技能的大型庫。就像NumPy一樣,它屬於SciPy開源軟體家族,並且可以在BSD自由軟體許可下使用。
Pandas提供多功能和強大的工具,用於整理數據結構和執行大量數據分析。該庫適用於不完整,非結構化和無序的實際數據,並提供了用於整形,聚合,分析和可視化數據集的工具。
此庫中有三種類型的數據結構:
例如,讓我們看看Panda Python庫(縮寫為pd)如何用於執行一些描述性統計計算。從導入庫開始:
先創建一個系列字典:
再創建一個DataFrame。
輸出表如下:
下面是這個示例的全部代碼:
3. Matplotlib
Matplotlib也是SciPy核心軟體包的一部分,遵循BSD許可協議。它是一個流行的Python科學庫,用於生成簡單而強大的可視化。風格類似 Matlab 的基於Python的圖表繪圖系統,它提供了一整套和 matlab 相似的命令 API,十分適合互動式地進行製圖。而且也可以方便地將它作為繪圖控制項,嵌入 GUI 應用程序中。
下面,讓我們體會一下Matplotlib庫是如何創建簡單的條形圖,從導入庫開始:
接著,生成x軸和y軸的值:
接著調用繪製條形圖的功能
生成的條形圖如下:
以下是此示例的完整代碼:
Python編程語言在數據處理和準備方面一直做得很好,但在複雜的科學數據分析和建模方面做得就不那麼好了。用於數據科學的頂級Python框架有助於填補這一空白,它允許用戶執行複雜的數學計算並創建對數據有意義的複雜模型。
你還知道其他哪些Python數據挖掘庫?你對他們有什麼經驗?可以留言和大家分享。
![](https://pic.pimg.tw/zzuyanan/1488615166-1259157397.png)
![](https://pic.pimg.tw/zzuyanan/1482887990-2595557020.jpg)
※第一屆全國計算社會科學高端論壇在清華大學舉行
※大數據新媒體平檯面向清華校內師生開放!
TAG:數據派THU |