《終極演算法》第三章總結及第四章學習

新聞 05-17

《終極演算法》第三章總結及第四章學習

近些年，人工智慧領域發生了飛躍性的突破，更使得許多科技領域的學生或工作者對這一領域產生了濃厚的興趣。在入門人工智慧的道路上，The Master Algorithm 可以說是必讀書目之一，其重要性不需多言。作者 Pedro Domingos 看似只是粗略地介紹了機器學習領域的主流思想，然而幾乎所有當今已出現的、或未出現的重要應用均有所提及。本書既適合初學者從更宏觀的角度概覽機器學習這一領域，又埋下無數伏筆，讓有心人能夠對特定技術問題進行深入學習，是一本不可多得的指導性入門書籍。詼諧幽默的行文風格也讓閱讀的過程充滿趣味。

以這本書為載體，機器之心「人工智慧研學社 · 入門組」近期將正式開班（加入方式）！我們邀請所有對人工智慧、機器學習感興趣的初學者加入我們，通過對 The Master Algorithm 的閱讀與討論，宏觀、全面地了解人工智慧的發展歷史與技術原理。

人工智慧研學社 · 入門組 | 一起研習Pedro Domingos的《終極演算法》
研學社 · 入門組 | 《終極演算法》前兩章總結及第三章學習

第3章總結

章節總結

如前一章所述，機器學習有五大學派。符號主義是其中之一。符號主義的核心信念是所有的智能都可以簡化為符號操縱。任何事物都有兩面性。符號主義的情況：

優點：

簡單：它不需要我們真正弄清楚進化或大腦如何運作，也避免了數學的複雜性。
反向推導具有使知識變得相當容易學的關鍵屬性。

不足之處：

除非我們一直銘記最初的知識，否則很容易迷失在大量的歸納中。
反向推導容易被噪音混淆。
真實概念很少由一套規則簡明扼要地定義——它們需要權衡和累積弱證據，直到出現清晰的圖景。

什麼是歸納：

示例 I

蘇格拉底是人類。

我們可以推導：

如果蘇格拉底是人，那麼他就會死

再進一步，我們可以應用牛頓原理，並將其概括到所有實體：

所有人都會死。

實例II - 使用歸納來計算基因組

如果溫度高，則表達基因A。

如果我們知道第一個和第三個規則，而不知道第二個規則，並且我們有一個微陣列數據，其中B和D在高溫下沒有表達，我們可以通過反向推導來歸納第二個規則：

如果基因A表達並且基因B不表達，則基因C會表達。

一旦我們有了這個規則，這可以通過微陣列實驗驗證，我們可以將其作為進一步歸納推斷的基礎。

現在我們遇到一個問題。反向推導是非常計算密集型的，這使得很難將其規模化，特別是對於大量數據集。因此，符號主義選擇的演算法是決策樹歸納。本書用生動的案例研究詳細解釋了決策樹。決策樹從根開始，每個節點詢問一個屬性的值，根據答案，我們前往一個或另一個分支。當我們到達葉子時，我們讀出預測的概念：

《終極演算法》第三章總結及第四章學習

如果你要減稅和生活，你是共和黨人。

決策樹的屬性：

從根到葉的每條路徑都對應於規則。
不能超過一個你，或兩者都沒有。

（注意，具有這種屬性的概念集稱為類集合（sets of classes），預測它們的演算法是分類器（classifier）。）

如何學習決策樹：

首先，我們選擇一個屬性來測試根。
然後，我們將重點放在每個分支下的例子，然後選擇下一個進行測試。（例如，我們檢查減稅是有利於生活還是有利於選擇。）
我們對每個引入的新節點重複這一點，直到分支中的所有示例都具有相同的類，此時我們用該類標記該分支。

先暫停一下，思考這個問題：我們如何驗證決策樹的邏輯和泛化性能？我們如何避免在有限的數據上過擬合？不管數據的大小，沒有泛化性能，你就還在原地踏步。在機器學習中，先入為主的觀念（假設）是不可或缺的。總而言之，我們的目標是編寫最簡單的程序，它將不斷從數據中更新自己，直到數據中的所有知識都被學習為止。

下面是本書中提到的兩個學習規則的總結：

方法一

從限制性假設開始，如果它們不能解釋數據，那麼就逐漸放寬這一限制，這是機器學習中的一個典型方法。以好的匹配的規則為例：

首先假設所有的匹配都很好。
然後嘗試排除所有沒有特定屬性的匹配項，並對每個屬性重複這一操作。選擇一個可以排除最多錯誤分類結果和最少的好的匹配項。
依次添加每個其他屬性。
一旦排除了所有的不良匹配，就結束了：現在你有一個概念的定義，它只包括正匹配，排除了所有的負匹配。

方法二：「分治求解」

在我們學習了每個規則之後，我們放棄了它所考慮的正樣本。
下一個規則試圖解釋儘可能多的餘下的正樣本，依此類推，直到全部都被考慮進來。

有時，演算法是找到一個單一的規則，它保留了一些假設（不僅僅是一個）。然後在每個步驟，在所有可能的方向擴展假設。

在本章中，作者介紹了以下概念：

理性主義者

感性欺騙人，而邏輯推理是唯一確定的知識之路。例如專家、律師和數學家都是理性主義者。

經驗主義者

所有推理都是錯誤的，知識必須來自觀察和實驗。例如記者、醫生和科學家都是經驗主義者。

休謨歸納問題

歸納是從觀察的結果中推斷出不可觀察的過程。休謨歸納問題是歸納法的一種不合理的合理。Hume認為，歸納既沒有歸納理由也沒有推導理由，因為兩者都將落入循環推理中，不可避免地假設自然的一致性，這正是預期的結論。

過擬合

學習器從數據中發現一種不適合現實世界的模式，即這種模式不符合新數據。過擬合一些可能的原因：1）噪音（數據中的錯誤，不可預測的隨機事件等），2）限制性假設太多但訓練數據不足以說明區別。

第1周問答系列

什麼是過擬合？

參見章節摘要：「學習器從數據中發現不適合現實世界的模式，即這種模式不符合新數據。」

本章中提到的三種解決/改進過擬合的方法有哪些？

使用統計顯著性檢驗來確保我們看到的模式真的存在。
使用「分治求解」方法來考慮更簡單的假設，參考奧卡姆剃刀原理
嘗試獲取更大/更具代表性的數據集
預處理過程中的正則化
評估過程中的交叉驗證
支持向量機（SVM）在分類/回歸過程中

什麼是歸納？舉個例子

請參見章節摘要

用自己的例子制定決策樹。

省略；
請在微信小組討論您的設計。

第4章預習

章節總結

上個世紀，赫布定律（Hebb"s rule）以及對大腦如何工作的理解自然地引發了基於聯結主義的學習過程建模的發展，其中之一是感知器（Perceptron）模型。它作為一個數學上沒有異議的想法逐漸產生，但在應用中卻出現了災難性的後果。後來，大腦和旋轉玻璃之間的引人注目的比喻導致了第一個解決信用分配問題演算法的產生，然後由玻爾茲曼機進行了改進。感知器模型再次進入S曲線函數和反向傳播演算法，在各個領域帶來了成功的浪潮。

【重要章節】

感知器的繁榮和落寞