35本AI 入門、大數據、機器學習免費教程

知識 08-24

AI 研習社，資源版塊已經正式上線，所有資源目前一律免費，歡迎大家前往社區資源中心下載喔~

https://club.leiphone.com/page/resources

今日要給大家推薦的資源是一套重磅的書單，社長一直捨不得拿出來公開呢！這次拿出來也是限時開放，開放時間到下周一喔，給大家留點時間可以慢慢下載來學習！

關於書單

這份書單是去年Matthew Mayo在 KDnuggets 上推薦的。Matthew Mayo 是知名數據科學網站 KDnuggets 的副主編，同時也是一位資深的數據科學家、深度學習技術愛好者，在機器學習和數據科學領域具有豐富的科研和從業經驗。因此，這份書單也有一定的參考意義。

這份書單大致以由淺入深的順序排列：首先是關於數據統計，接著是機器學習，最後是一些綜合性的更宏觀的書籍。

為了方便大家獲取這些書籍，社長特意整理了數據科學和機器學習領域的35本世界頂級原版教材放在社區資源中心，供大家下載學習。

以下是部分書籍清單和簡單介紹：

Think Stats: Probability and Statistics for Programmers

作者：Allen B. Downey

本書中文名為：《統計思維：程序員數學之概率統計》。從書名就能看出來，這本書是為程序員群體量身定製的統計學內容介紹，具體內容基於 Python 語言。

本書著重介紹了許多可以用來探索真實數據集的簡單技術，同時還能利用這些技術回答許多非常有趣的統計問題。該書的樣例基於美國國家衛生研究院的真實資料庫，並鼓勵讀者基於真實的數據進行相關研究。

Probabilistic Programming & Bayesian Methods for Hackers

作者：Cam Davidson-Pilon

本書中文名為《貝葉斯方法:概率編程與貝葉斯推斷》，以計算/理解為主，數學內容為輔，重點介紹了貝葉斯方法理論和概率編程。

作為推斷中最自然和常見的方法，貝葉斯推斷一般以晦澀難懂的數學分析理論為大家所熟知。按照一般的模式，在介紹貝葉斯之前，通常都要先介紹兩到三章的概率論的相關內容。等到概率論介紹完，又常常由於貝葉斯模型的數學複雜度太高，因此只能向讀者展示一些最簡單和粗糙的貝葉斯樣例，於是給讀者造成了一種「貝葉斯似乎也沒什麼用」的錯覺。本書則另闢蹊徑，以簡單通俗的講述開始，由淺入深地介紹了貝葉斯理論在黑客和概率編程中的應用。

Understanding Machine Learning: From Theory to Algorithms

作者：Shai Shalev-Shwartz 和 Shai Ben-David

本書中文名為：《深入理解機器學習:從原理到演算法》，書中從原理性的內容出發，介紹了機器學習的基本理論和演算法範例，同時給出了將這些基礎理論轉化為實際演算法的數學推導過程。介紹完這些基礎理論之後，本書又介紹了許多其他相關書籍很少涉及的核心內容，包括：模型訓練的計算複雜度，穩定性和凸性(convexity)的概念，隨機梯度下降、神經網路等演算法範例，以及 PAC-Bayes 和 compression-based bounds 等新概念。

The Elements of Statistical Learning

作者：Trevor Hastie, Robert Tibshirani 和 Jerome Friedman

本書在一些通用概念框架的基礎上介紹了統計學的一些重要思想。雖然書中的許多方法都是基於統計學的，並提供了樣例說明和彩色配圖，但核心思想是在向讀者闡述概念和思想，而並非數學知識。除了統計學概念之外，書中還涉及了神經網路、監督學習、支持向量機、分類、預測和非監督學習等非常豐富的內容。適合於對行業數據挖掘感興趣的統計人員和所有對新興科技感興趣的朋友。

An Introduction to Statistical Learning with Applications in R

作者：Gareth James, Daniela Witten, Trevor Hastie 和 Robert Tibshirani

本書中文名為《統計學習導論:基於R應用》，書中以 R 語言為基礎，詳細介紹了統計學習的核心方法和應用，內容涉及線性回歸、分類、再抽樣方法、壓縮方法、樹方法、聚類、支持向量機等。同時，書中提供了大量基於現實數據的樣例，這些數據來自近 20 年來生物學、金融學、市場營銷學和天體物理學等諸多領域。本書主要面向非數學專業的高年級本科生、碩士研究生和博士生。

Foundations of Data Science

作者：Avrim Blum, John Hopcroft 和 Ravindran Kannan

雖然計算機科學的傳統領域仍然非常重要，但是現在已經有越來越多的研究員開始著眼於如何使用計算機來理解和挖掘潛藏在大量數據中的有用信息，而不僅僅是用計算機來解決實際的應用問題。本書詳細介紹了數據科學的基礎理論和應用，作者在前言中指出：「我們希望讀者可以從本書中學到在未來 40 年仍然有用的數據科學基礎知識，正如自動化相關的理論和演算法在 40 年前做的一樣。」

A Programmer"s Guide to Data Mining: The Ancient Art of the Numerati

作者：Ron Zacharski

本書是一個以實踐操作為主的循序漸進式的編程參考，主要以 Python 代碼為基礎，面向數據挖掘的相關使用場景。作者在介紹中表示：「我希望你能參考書中給出的代碼，積极參与數據挖據技術的實踐編程，當你完成全書的所有內容時，實際上已經為數據挖掘技術奠定了堅實的基礎。」

Mining of Massive Datasets

作者：Jure Leskovec, Anand Rajaraman 和 Jeff Ullman

本書中文名為《大數據:互聯網大規模數據挖掘與分散式處理》，由斯坦福大學 CS246: Mining Massive Datasets 和 CS345A: Data Mining 課程的內容總結而成，主要關注極大規模數據的挖掘。主要內容包括分散式文件系統、相似性搜索、搜索引擎技術、頻繁項集挖掘、聚類演算法、廣告管理及推薦系統。大部分章節後都配有對應的習題，以及豐富的擴展閱讀推薦，用以鞏固所講解的內容。據官網介紹，本書的內容不涉及任何預備知識，任何人都可以直接學習。

Deep Learning

作者：Ian Goodfellow, Yoshua Bengio 和 Aaron Courville

本書為 Yoshua Bengio 和 Ian Goodfellow 等大神合著的深度學習教科書，該書主要分為三個部分：機器學習和數學基礎，深度學習的基礎實踐，深度學習的進一步研究。全書內容紮實、講解細緻、深入淺出，特別適合深度學習的初學者通過這本書正式入門機器學習領域的研究。

Machine Learning Yearning

作者：吳恩達（Andrew Ng）

這是大神吳恩達的一本書，官網描述稱：

AI，機器學習和深度學習正在改變眾多的行業。但如何搭建一個真正的機器學習系統，首先需要解決如下幾個問題：

應該收集更多的訓練數據嗎？

應該使用端到端的深度學習嗎？

如何處理與測試集不匹配的訓練集？

等等。

此前，關於如何解決這些問題的唯一途徑是研究生課程或諮詢公司。現在我正在寫一本相關的書籍，希望能幫助各位朋友解決類似的問題，幫助大家更好地搭建 AI 系統。