當前位置:
首頁 > 科技 > 力壓 R,Python 在數據科學領域風生水起

力壓 R,Python 在數據科學領域風生水起

TIOBE 最新發布的 9 月編程語言排行榜中,Python 憑 4.67% 的增速以 0.26% 的優勢力壓 C++,逆襲成功進入 Top 3。

TIOBE 9 月編程語言 Top 5

而近一年勢頭不滅的 Python 在數據分析領域,是專家們的必備技能。隨著 IT 行業的增長,對有經驗的數據科學家的需求也水漲船高,而 Python 也一躍而成最受歡迎的語言。本文旨在介紹分析數據的基本知識,並利用 Python 創建一些漂亮的數據可視化。

概要

為什麼要學數據科學中的 Python?

Python 簡介

為數據科學中的 Python 安裝 Jupyter

Python 的基本知識

用於數據科學的 Python 庫

Demo:實際應用

數據科學領域,非 Python 語言莫屬?

Python 是最適合數據科學家的語言,這一點毫無爭議。下面幾點可以幫你理解為什麼從事數據科學的人選擇了 Python:

Python 是一門免費,靈活且強大的開源語言。

Python 能減少一半的開發時間,同時提供簡潔易讀的語法。

使用 Python 可以進行數據操作、數據分析和可視化。

Python 提供功能強大的庫,用於機器學習應用和其他科學計算。

你知道最大的好處是什麼嗎?數據科學家是目前收入最高的職位之一,根據 Indeed.com 的數據,平均年薪為 $130,621

Python 由 Guido Van Rossum 於 1989 年創建。它是個解釋語言,擁有動態語義。它在所有的平台上可以免費使用。Python 是:

面向對象

高級語言

容易學

面向過程

為數據科學中的 Python 安裝 Jupyter

我們先來在自己的系統上安裝 Jupyter。請按照以下步驟進行:

第 1 步:訪問 https://jupyter.org/

第 2 步:點擊「Try in your browser」或「Install the Notebook」

我建議你使用 Anaconda 發行版(https://www.anaconda.com/download/)安裝 Python 和 Jupyter。裝好Jupyter 之後,可以在命令行中輸入「Jupyter Notebook」即可在默認瀏覽器中打開。現在我們在 Jupyter 上寫個最基本的程序。

要運行這段代碼,可以按下「Shift+Enter」,即可查看輸出。如下面的截圖所示:

數據科學中的 Python 的基礎

現在可以開始編程了。為了編程,你需要先了解以下的基礎知識:

變數:「變數」這個術語指內存中的一塊保留的位置,用於保存值。在Python中,使用變數之前不需要定義變數,更不需要聲明變數的類型。

數據類型:Python 支持多種數據類型,這些數據類型定義了變數上可能的操作,以及它們的存儲方式。數據類型包括數值、列表、字元串、元組、集合和字典。

操作符:操作符可以操縱操作數中的值。Python 中的操作符包括數值操作符、列表操作符、字元串操作符、元組操作符、集合操作符和字典操作符。

條件語句:條件語句可以根據某個條件執行一組語句。有三個條件語句:if、elif 和 else。

循環:循環用來反覆執行一小段代碼。有三種循環,分別是while、for和嵌套循環。

函數:函數用來將代碼分隔成有意義的功能塊,以便更好地組織代碼,讓代碼更易讀,重用代碼,還能節省時間。

關於 Python的更多信息和實際的實現,可以參考這篇文章:Python 入門(https://www.edureka.co/blog/python-tutorial/)。

數據科學中的 Python 庫

這是 Python 在數據科學中發揮力量的部分。Python 擁有大量用於科學計算、分析、可視化等的庫。一些庫如下:

Numpy - NumPy 是 Python 在數據科學方面的核心庫,它的名字的意思是「數值計算用的Python」。它可以用於科學計算,包含了強大的 n 維數組對象,並提供了許多工具與 C、C++ 等語言集成。它還可以用作多維容器,用來存儲任意數據,從而進行各種 NumPy 操作和特殊功能。

Matplotlib - Matplotlib 是個強大的可視化 Python 庫。它可以用於Python 腳本、shell、Web 應用伺服器上,還可以用於其他 GUI 工具中。可以用它繪製各種圖表,也可以把多種圖表畫在一起。

Scikit-learn - Scikit-learn 是最引人注目的庫之一,通過它可以用 Python 實現機器學習。這個免費的庫包含了用於數據分析和數據挖掘的簡單有效的工具。用它可以實現各種演算法,如邏輯回歸。

Seaborn - Seaborn 是個統計繪圖的 Python 庫。在數據科學中使用 Python 時,可以使用 matplotlib(用於二維可視化)和 Seaborn,後者有漂亮的樣式和高級介面可以用於繪製統計圖表。

Pandas - Pandas 是數據科學中的重要的 Python 庫。它用來操作數據和分析數據。它很適合不同類型的數據,如表格、有序時間序列、無序時間序列、矩陣等。這裡有個視頻(https://youtu.be/B42n3Pc-N2A)演示了如何在處理數據之前使用 Pandas 進行數據分析。

Demo:實際應用

問題描述:給定一組數據集,該數據集是由多種數據組成的綜合統計數據,如監獄設施的分布和情況、監獄的擁擠程度、監獄中的犯人類型,等等。請在這個數據集上做描述性的統計,並從數據中找出有用的信息。下面是幾個任務:

數據載入:使用 Pandas 載入數據集「prisoners.csv」並顯示數據集中的前五行和最後五行。然後用 Pandas 的 describe 方法找出列數。

數據操作:創建一個新的列 - 「total benefitted」,它是所有模式下的受益的犯人總數。

數據可視化:創建條形圖,用每個州的名字作為X軸,受益犯人的總數作為條的高度。

載入數據使用以下代碼:

然後用 Pandas 的 describe 方法,只需輸入以下語句:

然後進行數據操作:

最後,用 Python 做一些數據可視化。代碼如下:

原文:https://dzone.com/articles/learn-python-for-data-science-using-python-librari

作者:Aayushi Johari

譯者:彎月,責編:屠敏


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 CSDN 的精彩文章:

Oracle 搶人了!近 4000 萬年薪只為一個 AI 專家
AI時代的芯魂合一——天數智芯2018智能生態戰略發布會在京召開

TAG:CSDN |