當前位置:
首頁 > 最新 > Python數據科學超強陣容書單

Python數據科學超強陣容書單

提到數據科學,大家都不陌生,那要是問你數據科學都需要掌握點啥?emmmm......我想很多人可能會犯難。

這麼紛繁複雜的學科,是多種學科交織下的產物,你要掌握的可能不只是某一個方面的知識,甚至有時候你要集統計學家、計算機科學家以及特定領域專家於一身。

這麼說是不是有點怕?不要怕,你只要不把它當做是新技能,就把它當做已經掌握的知識在新領域的應用就可以了。

那你接下來要問了,如何能應用好數據科學?說到這裡不得不提一個編程語言,那就是 Python 。人工智慧的迅速發展,讓更多人加入到了學習 Python 的行列中。如何能用 Python 做好數據分析,更是大家關注的問題。今天,準備安利大家一個超強的書單,希望助大家在學習數據科學的路上一路向前。在介紹書單之前,讓我們先了解數據科學的一些背景。

1. 為什麼數據科學青睞Python?

其實,數據科學並非 Python 一家之「言」,Scala、Java、R、Julia 等編程語言在此領域都有各自不同的工具。至於要不要學 Python,其實沒必要糾結,秉承李小龍的武術哲學即可——Absorb what is useful, discard what is not, and add what is uniquely your own(取其精華,去其糟粕,再加點自己的獨創)。Python 的語法簡潔直觀、易學易用,是表現力最強的編程語言,學會它就可以讓計算機跟隨思想,快速完成許多有趣的事情。同時,它也是備受歡迎的膠水語言,許多由 Java、C/C++ 語言開發的工具都會提供 Python 介面,如 Spark、H2O、TensorFlow 等。

2017 年 3 月 6 日,PyPI(https://pypi.python.org/pypi)網站上的程序包數量就已經達到 10 萬,新的程序包還在不斷地湧現,數據科學目前是 Python 星球最酷炫的風景之一。如果數據科學問題讓你心有掛礙,那麼 Python 這根數據科學的蛇杖(Asklēpiós,阿斯克勒庇俄斯之杖,醫神手杖,醫院的徽章)可以為你指點迷津。

其實,用 Python 語言還有一個原因就是它有龐大的第三方庫和完善的生態系統。

2. 那麼,簡單回顧一下常用的 Python 庫。

核心庫

NumPy

Numerical Python 的簡稱,是 Python 的一種開源的數值計算擴展。它提供了許多高級的數值編程工具,如:矩陣數據類型、矢量處理,以及精密的運算庫。專為進行嚴格的數字處理而產生。

Pandas

是基於 NumPy 的一種工具,該工具是為了解決數據分析任務而創建的。Pandas 納入了大量庫和一些標準的數據模型,提供了高效地操作大型數據集所需的工具。 以及能使我們快速便捷地處理數據的函數和方法。

SciPy

SciPy 是 Python 中用於科學計算的函數集合。它具有線性代數高級程序、數學函數優化、信號處理、特殊數學函數和統計分布等多項功能。Scikit-Learn 利用SciPy 中的函數集合來實現演算法。

繪圖以及可視化

Matplotlib

Matplotlib 是 Python 的一個繪圖庫。它包含了大量的工具,你可以使用這些工具創建各種圖形,包括簡單的散點圖,正弦曲線,甚至是三維圖形。Python 科學計算社區經常使用它完成數據可視化的工作。

Seaborn

Seaborn 是基於 Matplotlib 的 Python 數據可視化庫, 主要用於統計模型的可視化。提供更高層次的 API 封裝,使用起來更加方便快捷。

機器學習

Scikit-Learn

Scikit-Learn 是用 Python 開發的機器學習庫,其中包含大量機器學習演算法、數據集,是數據挖掘方便的工具。

TensorFlow

TensorFlow 可被用於語音識別或圖像識別等多項機器學習和深度學習領域,對2011年開發的深度學習基礎架構 DistBelief 進行了各方面的改進,它可在小到一部智能手機、大到數千台數據中心伺服器的各種設備上運行。

接下來,送大家 3 個好助手陪你勇闖 Python 數據科學之路。

3. 數據科學三劍客

《Python數據科學手冊》是我們的新書,之前推薦過,作者是 Scikit-Learn、IPython 等諸多庫的代碼貢獻者,華盛頓大學 eScience 學院物理科學研究院院長。80%有關機器學習、數據分析或者數據科學的嘗試實際上都是與數據處理和理解數據相關的。而這本書就是為了解決這個問題的,在使用 Python 來解決數據處理、數據分析以及數據可視化方面時,這是一本極佳的參考書。這本書還有一個好處就是容易上手,即使你沒有任何 Python 的經驗也可以看懂。

那讀這本書你能獲得什麼?

以IPython、NumPy、Pandas、Matplotlib 和 Scikit-Learn 這 5 個能完成數據科學大部分工作的基礎工具為基礎,學會如何清洗和可視化數據。

學會用數據建立各種統計學或機器學習模型等常見數據科學任務。

一個美國亞馬遜的讀者評論說,他買這本書時,只想看 Scikit-Learn 的內容,而這些內容要在後1/3處才提到。前1/3講的都是和 Numpy、Pandas 相關的,中間則是與Matplotlib相關的。當他把這些方法應用到實際工作中後,他才恍然大悟,原來前2/3他一直想跳過的內容也同樣是精華。於是,他驚嘆,如果直接跳去看 Scikit-Learn 那麼他的工作就不會這麼高產了。不知道這算不算是一種小幸運呢?美亞 4.5 分好評可不是蓋的。

《Python數據科學手冊》是與 Wes McKinney 大佬的Python for Data Analysis(中文版《利用 Python 進行數據分析》)齊名的數據科學參考書。甚至,在 Amazon 上的綜合評分略高於後者。讀者在選擇的時候,請事先關注這兩本書的側重點。另外,後者第2版中文版還未引入。

圖靈還有兩本數據科學相關的書,雖然已經出版近三年的時間,但是這兩本書目前依然在國內外非常暢銷。不過,中文版顯然沒有英文版賣得好,這兩本書分別是《數據科學入門》和《數據科學實戰》,前者豆瓣評分6.9(略低了點兒,尷尬,譯者還需努力),後者豆瓣評分8.3。

作者:Joel Grus

譯者:高蓉 , 韓波

Google數據科學家、軟體工程師Joel Grus作品

用Python從零開始講解數據科學的重量級讀本

數據科學、機器學習、模式識別領域必備

本書從零開始講解數據科學。具體內容包括Python簡介,可視化數據,線性代數,統計,概率,假設與推斷,梯度下降法,如何獲取數據,k近鄰法,樸素貝葉斯演算法等。作者藉助大量具體例子以及數據挖掘、統計學、機器學習等領域的重要概念,通過講解基礎數據科學工具和演算法實現,帶你快速跨入數據科學大門。書中含大量數據科學領域的庫、框架、模塊和工具包。

作者:Rachel Schutt , Cathy O"Neil

譯者:馮凌秉 , 王群鋒

英文原版數據挖掘和演算法類暢銷書

谷歌、微軟、eBay數據科學家通過實際案例分享最新演算法、方法與模型

前谷歌高級統計師、哥倫比亞大學講師Rachel Schutt,MIT數學博士後Cathy O"Neil力作

本書脫胎於哥倫比亞大學「數據科學導論」課程的教學講義,由統計系講授數據科學概論課程的講師Rachel Schutt(受雇於谷歌),與數據科學顧問Cathy O"Neil(前D.E. Shaw定量分析師)合作撰寫,每章都會邀請一位數據科學家嘉賓,他們都來自知名公司如谷歌、微軟、或eBay,通過分享案例研究和實際使用的代碼來講授新的演算法、方法或模型。

怎麼樣?感覺哪本更適合目前的你呢?話說這幾本書難度都不是很大,如果從來沒有了解過數據科學,建議從《數據科學入門》 開始上手;《Python數據科學手冊》當然是未來數據科學家的隨手查閱小幫手了;而《數據科學實戰》中講解了矽谷知名公司的案例,幫我們解鎖實戰思路。

曾夢想執劍走數據科學之天涯,如今三劍客一起陪你,還怕啥?

●編號377,輸入編號直達本文

●輸入m獲取文章目錄

推薦↓↓↓

演算法與數據結構

更多推薦:18個技術類微信公眾號

涵蓋:程序人生、演算法與數據結構、黑客技術與網路安全、大數據技術、前端開發、Java、Python、Web開發、安卓開發、iOS開發、C/C++、.NET、Linux、資料庫、運維等。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Python 的精彩文章:

「Python」Chapter1 變數和簡單數據類型
用Python爬蟲獲取自己感興趣的博客文章

TAG:Python |