10本免費的機器學習和數據科學書籍
來源:雲棲社區
本文約2500字,建議閱讀6分鐘。
本文為大家介紹了免費學習機器學習和數據科學方面的書籍。
聽說,最近大家都開學了?不對,是學生們都已經開學了,開學第一件事是什麼?發新書!發新書!發新書!好的,作為一個心地善良且熱心服務程序員的小編,我決定給大家分享一波免費的機器學習和數據科學電子書!
1. 思考統計數據:程序員的概率和統計數據
作者:AllenB. Downey
Think Stats是面向Python程序員的概率和統計的介紹。Think Stats強調探索真實數據集和回答有趣問題的簡單技術。該書使用美國國立衛生研究院的數據進行了案例研究及編程設計,本書的作者鼓勵程序員使用真實數據集進行數據分析及編程,因為這樣訓練效果才能達到最好。
詳情:
http://www.greenteapress.com/thinkstats/
2. 黑客的概率編程和貝葉斯方法
作者:CamDavidson-Pilon
本書介紹貝葉斯方法和概率編程,第一步是從計算/理解入手,第二步是講其中運用到的數學觀點。
貝葉斯方法是推理的自然方法,但在數學分析的章節背後作者為讀者介紹了一些貝葉斯方法的有趣的故事。涉及概率論的貝葉斯推理的典型文本在本書的兩到三章,接著就是貝葉斯推理。不幸的是,由於大多數貝葉斯模型的數學難以處理,讀者只能看到簡單的經過人工處理例子。這可以讓用戶對貝葉斯推理產生一些感覺,事實上,這些都是作者自己的先前意見。
詳情:
http://camdavidsonpilon.github.io/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers/
3. 理解機器學習:從理論到演算法
作者:Shai Shalev-Shwartz和Shai Ben-David
機器學習是計算機科學發展最快的領域之一,具有廣泛的應用前景。本教材的目的是以最基礎的方式介紹機器學習及其提供的演算法範例。本書提供了機器學習基礎知識的理論解釋以及將這些原理轉化為實際演算法的數學推導。在介紹了基礎知識之後,本書還涵蓋了以前教科書未解決的各種中心主題。其中包括討論學習的計算複雜性以及凸性和穩定性的概念;重要的演算法範例包括隨機梯度下降,神經網路和結構化輸出學習;還有一些新興的理論概念,如PAC-Bayes方法和基於邊界的壓縮。
詳情:
http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/
4. 統計學的要素
作者:TrevorHastie,RobertTibshirani和JeromeFriedman
本書在一個共同的概念框架中闡述了這個領域的重要思想。雖然這種方法是統計學的,但其中重點的是概念而不是其所在領域。通過使用彩色圖形給出了許多例子,它應該能夠成為統計學家和任何對科學或工業數據挖掘感興趣的人的寶貴資源。該書的覆蓋範圍很廣,從監督學習(預測)到無監督學習。許多主題包括神經網路、支持向量機、分類樹,這是所有此類數據中對該主題的第一次綜合處理。
詳情:
http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf
5. 統計學簡介及其在R中的應用
作者:GarethJames,DanielaWitten,TrevorHastie和RobertTibshirani
本書介紹了統計學的方法。它針對的是高年級本科生,碩士生和博士生還有非數學科學的學生。該書還包含許多R語言的實例,並詳細解釋了如何在現實生活環境中實施各種方法,並且應該是實踐數據科學家的寶貴資源。
詳情:
http://www-bcf.usc.edu/~gareth/ISL/?
6. 數據科學的基礎
作者:AvrimBlum,JohnHopcroft和RavindranKannan
雖然計算機科學的傳統領域仍然非常重要,但未來越來越多的研究人員都希望參與使用計算機來理解和從應用程序中出現的大量數據中提取可用信息,而不僅僅是如何使計算機變得更加功能廣泛。考慮到這一點,作者寫了這本書,以涵蓋在未來40年可能有用的理論,正如對自動機理論,機器學習演算法和相關主題的理解,我覺得這對於未來幾十年的理論都有影響。
詳情:
https://www.cs.cornell.edu/jeh/book.pdf
7. 程序員數據挖掘指南:Numerati的古代藝術
作者:RonZacharski
這個指南遵循手把手教學的思想。我希望你能主動的完成練習並運行我提供的Python代碼,而不是被動地閱讀本書。並且我希望你能夠積极參与嘗試和編程數據挖掘技術。這本書算得上一個入門的教科書,它作為一系列相互依賴的微弱的積累,直到你完成本書時,你可能已經完全理解數據挖掘技術了。
詳情:
http://guidetodatamining.com/
8. 大規模數據集的挖掘
作者:JureLeskovec,AnandRajaraman和JeffUllman
本書基於斯坦福計算機科學課程CS246:挖掘海量數據集和CS345A:數據挖掘。這本書與課程保持同步,而且這本書的難度是在本科計算機科學水平設計的,不需要太多的技能或者積累。為了支持更深入的探索,大多數章節都補充了進一步的閱讀參考。
詳情:
http://mmds.org/
9. 深度學習
作者:IanGoodfellow,YoshuaBengio和AaronCourville
深度學習這本旨在幫助學生和從業者進入機器學習領域,特別是深度學習。該書的在線版本現已完成,並將在線免費提供。
詳情:
10. 機器學習渴望
作者:AndrewNg
人工智慧,機器學習和深度學習正在改變眾多行業。但是建立一個機器學習系統,你需要思考下面這些問題:
你能夠收集更多的訓練數據嗎?
你應該使用端到端的深度學習嗎?
你如何處理與你的測試集不匹配的訓練集?
還有其他一些細節問題。
從歷史上看,學習如何制定這些「戰略」決策的唯一方法是在研究生課程或公司中進行多年的學習訓練。
詳情:


※NLP、知識圖譜教程、書籍、網站、工具……
※清華大學大數據能力提升項目宣講會火熱來襲
TAG:數據派THU |