當前位置:
首頁 > 最新 > 面向工程師的機器學習簡介:理論、演算法、概念全覆蓋

面向工程師的機器學習簡介:理論、演算法、概念全覆蓋

選自arXiv

機器之心編譯

參與:Panda、黃小天

人工智慧技術已經成為當前技術變革的主要推動力之一,從計算機科學到工程學等許多科學技術領域都在竭盡全力想用自動化的方法創造更大的價值。要想做到這一點,工程師當然必須要對當前最具潛力的機器學習方法有一個大致了解。倫敦國王學院信息學習教授 Osvaldo Simeone 近日在 arXiv 上公開發布了長達 200 頁的最新專著,為工程師提供了全面細緻的機器學習入門介紹。在本文中,機器之心對這本專著的摘要及目錄部分進行了介紹。專著原文可在 arXiv 下載,工程師和准工程師一定不要錯過。

為工程師寫的機器學習簡介(A Brief Introduction to Machine Learning for Engineers)

專著地址:https://arxiv.org/abs/1709.02840

摘要

本專著的目標是介紹機器學習領域內的關鍵概念、演算法和理論框架,涵蓋了監督學習與無監督學習、統計學習理論、概率圖模型和近似推斷等方向。本專著的目標讀者是具有概率學和線性代數背景的電氣工程師。本書基於第一原理(first principle)寫作,並按照有清晰定義的分類方式對其中的主要思想進行了組織,其中的類別包含鑒別式模型和生成式模型、頻率論者和貝葉斯方法、準確推斷和近似推斷、有向模型和無向模型、凸優化和非凸優化。本書中的數學框架使用了資訊理論的描述方式,以便工具具有統一性。書中提供了簡單且可重複的數值示例,以便讀者了解相關的關鍵動機和結論。本專著的目的並不是要為每個特定類別中已有的大量解決方案提供詳盡的細節描述(這些描述讀者可參閱教科書和論文了解),而是為了給工程師提供一個切入點,以便他們能藉此進一步深入機器學習相關文獻。

1 引言

1.1 機器學習

1.2 目標和綱要

2 線性回歸入門介紹

2.1 監督學習

2.2 推斷

2.3 頻率論者

2.4 貝葉斯方法

2.5 最小描述長度(MDL)

2.6 解釋與因果關係

2.7 資訊理論指標

2.8 總結

3 概率學習模型

3.1 指數分布族

3.2 最大熵性質

3.3 頻率學習(Frequentist Learning)

3.4 貝葉斯學習

3.5 基於能量的模型(Energy-based Models)

3.6 通過廣義線性模型(GLM)的監督學習

3.7 總結

4 分類

4.1 將分類作為監督學習問題

4.2 隨機梯度下降

4.3 判別式確定性模型

4.4 判別式概率模型

4.5 生成式概率模型

4.6 多類別分類

4.7 非線性判別式模型:深度神經網路

4.8 Boosting

4.9 總結

5 統計學習理論

5.1 監督學習的一種形式框架

5.2 PAC 可學習性和樣本複雜性

5.3 有限假設類別的 PAC 可學習性

5.4 VC 維和 PAC 學習的基本定理

5.5 總結

6 無監督學習

6.1 無監督學習

6.2 K-均值聚類

6.3 ML、ELBO 和 EM

6.4 有向生成模型

6.5 無向生成模型

6.6 判別式模型

6.7 自編碼器

6.8 Ranking

6.9 總結

7 概率圖模型

7.1 介紹

7.2 貝葉斯網路

7.3 馬爾可夫隨機場

7.4 概率圖模型中的貝葉斯推斷

7.5 總結

8 近似推斷和學習

8.1 蒙特卡羅方法

8.2 變分推斷

8.3 基於蒙特卡羅的變分推斷

8.4 近似學習

8.5 總結

9 結語

附錄

A 附錄 A:信息度量

A.1 熵

A.2 條件熵和互信息

A.3 散度度量

B 附錄 B:KL 散度和指數分布族

致謝

參考文獻

介紹

當我在教授機器學習課程時,有著工程學背景的同事和學生經常問及:如何更好地入門機器學習。我通常會以書籍推薦的形式回應——一般但稍微過時的介紹,請讀這本書;對於基於概率模型方法的詳細調查,請查看這些索引;如果想要了解統計學習,我覺得這篇文章很有用;如此等等。結果證明這些回答無法使我與提問者滿意。書籍很多很厚,使得繁忙的工程學教授和學生望而卻步。因此我首次撰寫了這篇專論,一篇基礎且體量適當的入門書,其中通過簡單的術語面向工程師統一介紹了機器學習主要思想和原理,同時涵蓋了其最新發展和文獻指導,以供進一步研究。

第二章,線性回歸入門介紹

第二章我們回顧了三個核心的學習框架,即頻率論者(frequentist)、貝葉斯和 MDL。頻率論者為數據假定了真實、未知分布的存在,並致力於學習一個預測器(predictor),從而更好地泛化來自這一分布的不可見數據。這可通過學習一個插入最優預測器表達式的概率模型或者直接解決預測變數上的 ERM 問題而完成。貝葉斯方法輸出一個預測分布,可通過解決計算不可見標籤上後驗分布的推斷問題而整合先驗信息與數據。最後,MDL 方法旨在篩選一個模型,允許使用最少的比特描述數據,因此去除在未觀察實例上泛化的任務。本章也廣泛討論了過擬合的關鍵問題,展示了學習演算法的性能可就偏差和評估錯誤獲得理解。運行實例是用於高斯模型的線形回歸中的一個。下一章將會介紹更多學習構建和學習常見概率模型的工具。

第三章,概率學習模型

本章中,我們回顧了概率模型的一個重要類別——指數族,它被廣泛用作學習演算法的組件以完成監督、無監督學習任務。這一類別成員的關鍵屬性是由同一家族中的梯度 LL 和共軛先驗的可用性採用的簡單形式。下一章我們將講述指數族在解決分類問題方面的不同應用模型。

第四章,分類

本章扼要概述了分類的關鍵問題。按照第二章提出的分類系統,我們依據用來連接解釋性變數與標籤的模型類型劃分了學習演算法。尤其地,我們描述了線性與非線性的確定性判別模型,涵蓋了用於多層神經網路的感知機演算法、SVM、反向傳播;聚焦於 GLM 的概率判別模型;包括 QDA 和 LDA 在內的概率生成模型。我們同樣介紹了混合模型與提升方法(Boosting)。儘管本章聚焦在演算法方面,下一章將討論一個理論框架,研究監督學習的性能。

第五章,統計學習理論

本章描述了經典的 PAC 框架,並用它分析監督學習的泛化性能。我們知道 VC 維理論定義了模型的能力,這就意味著 VC 維在給定模型準確度和置信度上度量了其學習所需要的樣本數量。在下一章中,我們將從監督學習進一步討論無監督學習問題。

第六章,無監督學習

在本章節中,我們回顧了無監督學習的基礎知識。優秀的無監督學習方法一般都通過隱變數或潛在變數幫助解釋數據的結構。我們首先通過期望最大化演算法(EM)回顧了機器學習及各種變體。隨後介紹了機器學習生成模型 GAN,該方法使用從數據中學到的散度度量以代替 KL 散度。隨後接著回顧了通過 InfoMax 原則訓練的判別模型和自編碼器。在下一章節中,我們通過討論概率圖模型的強大框架而擴展了對概率模型的理解。

第七章,概率圖模型

概率圖模型將關於數據結構的先驗信息編碼為因果關係的形式,即通過有向圖和貝葉斯網路(BN),或通過無向圖和馬爾可夫隨機場(MRF)編碼為相互之間的依賴性關係。這種結構可以表示為條件獨立性屬性。概率圖模型所編碼的結構屬性能有效地控制模型的性能,因此能以可能的偏差為代價減少過模型擬合。概率圖模型也推動執行貝葉斯推斷,至少在樹型結構的圖中是這樣的。下一章將討論貝葉斯推斷和關聯學習比較重要的問題,當然具體的方法對計算力的需求就太大了。

第八章,近似推斷與學習

本章通過關注 MC 和 VI 方法概覽了近似推斷技術。並且重點關注了選擇不同類型的近似準則及其所產生的影響,例如介紹 M- 和 I- 映射。同樣我們還討論了在學習問題上使用近似推斷的方法。此外,我們還討論了本章目前最優的技術進展。

第九章,結語

這一章節主要是簡單介紹機器學習,尤其是強調那些統一框架下的概念。除了前文縱覽機器學習的各種方法,我們在這年還提供了那些只是提到或簡要描述的重要概念及其擴展方向,因此下面將提供前文沒有介紹的重要概念列表。

隱私:在許多應用中,用於訓練機器學習演算法的數據集包含了很多敏感的私人信息,例如推薦系統中的個人偏好和醫療信息等等。因此確保學習的模型並不會揭露任何訓練數據集中的個人記錄信息就顯得十分重要了。這一約束能使用差分隱私(differential privacy)概念形式化表達。保證個人數據點隱私的典型方法包括在執行 SGD 訓練模型時對梯度添加隨機雜訊,該方法依賴於使用不同的訓練數據子集混合所學習到的專家系統 [1]。

魯棒性:已經有研究者表明不同的機器學習模型包含神經網路對數據集中很小的變化十分敏感,它們會對次要的、正確選擇的和解釋變數中的變動給出錯誤的響應。為了確保模型關於對抗樣本具有魯棒性,修正訓練過程是具有重要實踐意義的研究領域 [37]。

計算平台和編程框架:為了擴展機器學習應用,利用分散式計算架構和相應的標準編程框架 [9] 是十分有必要的。

遷移學習:針對特定任務並使用給定數據集進行訓練的機器學習模型,目前如果需要應用到不同的任務還需要重新初始化和訓練。遷移學習研究領域即希望將預訓練模型從一個任務獲得的專業知識遷移到另一個任務中。神經網路的典型解決方案規定了通用隱藏層的存在,即對不同任務訓練的神經網路有一些隱藏層是相同的。

域適應(Domain adaptation):在許多學習問題中,可用數據和測試數據的分布並不相同。例如在語音識別中,模型學習時所使用的用戶數據和訓練後其他用戶使用該模型所提供的語音數據是不同的。廣義 PAC 理論分析了這種情況,其將測試分布作為測試和訓練的分布差異函數而獲得了泛化誤差邊界。

有效通信學習(Communication-efficient learning):在分散式計算平台上,數據通常被分配在處理器中,處理器中的通信造成了延遲與能耗。一個重要的研究問題是找到學習性能與通信成本之間的最佳折衷。

強化學習:強化學習是機器學習方法最近大獲成功的根本核心,獲得了玩視頻遊戲或與人類選手對決的必要技能。在強化學習中,一方想要學習世界中已觀察到的狀態 x 和動作 t 之間的最優映射,比如說 p(t|x, θ)。不同於監督學習,強化學習中最優動作不可知,機器會由於採取的動作而獲得一個獎勵/懲罰信號。其中一個流行的方法是深度強化學習,它通過神經網路建模映射 p(t|x, θ)。通過使用強化方法評估梯度並藉助 SGD,這被訓練從而最大化平均獎勵。


點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

薦號‖關於人工智慧、機器學習、大數據的九個黃金公號
使用機器學習進行設計時的7個步驟(上)
任何人都能成為機器學習專家
邦盛科技機器學習助力銀行信用卡營銷與風控智能升級
讓我們八一八機器學習加基因檢測預測長相的這個刷屏貼的底

TAG:機器學習 |