當前位置:
首頁 > 知識 > 不知道如何開始機器學習?這有份初學者指南!

不知道如何開始機器學習?這有份初學者指南!

本文為雷鋒字幕組編譯的技術博客,原標題Math, Stats and NLP for Machine Learning: As Fast As Possible,作者為Souman Roy。

翻譯 | 廖穎 龍珂宇 Noddleslee J叔 整理 | 凡江

機器學習: 引言

聽過人們談論過機器學習,但對它的概念卻是一知半解?

想要從零開始機器學習,卻被網路上的海量資源沖昏頭腦?

不用擔心,我們給你們提供了機器學習從0到1系列,這個系列可以讓你從入門到精通。

現在就開始學習吧!

· · ·

這份指南是為了那些對機器學習感興趣,但不知如何開始的朋友們準備的。我想大多厭倦在網上搜索大量資料的人都會有挫敗感,也放棄了有人能指引他們如何入門的希望。

這個系列的目標,就是教會你們從初學者的角度,正確學習機器學習。

· · ·


為什麼說數學是必須的?

機器學習建立在一些數學的基礎課程上的,比如微積分,線性代數,概率論,統計學和最優化。這篇文章旨在幫助你們學習一些基本概念,並提供一個可在 Jupiter Notebook 上使用 python 程序設計語言的可操作方法。


第 1 步 : 線性代數

線性代數是在計算機里設計優化演算法的一種方式?——可以解決線性系統約束問題。

線性代數中你需要了解的概念:

#1 矩陣的秩;

#2 矩陣向量積;

#3 矩陣的列空間和零空間;

#4 特徵值和特徵向量;

#5 矩陣的奇異值分解;

這是一個了解線性代數概念的速查表:

來源:https://minireference.com/static/tutorials/linear_algebra_in_4_pages.pdf


第 2 步:概率論和數理統計

這一數學分支是用來解決隨機分布量問題的。

概率論與數理統計中你需要了解的概念:

概率論:

#1 計數方法和組合方法;

#2 貝葉斯理論;

#3 隨機變數;

#4 期望;

#5 方差;

#6 條件分布和聯合分布;

#7 矩量母函數;

#8 指數型分布族;

數理統計:

#1 最大似然估計;

#2 最大後驗概率;

#3 先驗概率和後驗概率;

#4 抽查法;

#5 吉布斯現象;

#6 平均數,眾數,中位數,方差;

這是一個了解概率論和數理統計概念的速查表 :

來源:

https://static1.squarespace.com/static/54bf3241e4b0f0d81bf7ff36/t/55e9494fe4b011aed10e48e5/1441352015658/probability_cheatsheet.pdf

來源:http://web.mit.edu/~csvoss/Public/usabo/stats_handout.pdf


第 3 部:多元微積分

經典微積分研究變數和變化率之間的關係。但在機器學習中,我們主要使用微分運算來求解函數的極值,使用積分運算來求解概率模型。

多元微積分中你需要掌握的概念

#1 向量值函數

#2 偏導函數

#3 梯度

#4 方向梯度

#5 黑塞運算元

#6 雅各比運算元

#7 拉普拉斯運算元(低量運算元)

#8 拉格朗日乘子


第 4 步:資訊理論入門

資訊理論是應用數學的一個分支,它關注如何「度量「信息。

資訊理論中你需要掌握的概念:

#1 熵

#2 互信息

#3 信息增益

#4 KL散度(相對熵)

來源:http://tuvalu.santafe.edu/~simon/cheat_sheet_info.pdf


第 5 步:NLP(自然語言處理)

自然語言出來指的是利用軟體自動地處理注入講話和文本的技術。

做為對文本數據感興趣的機器學習實踐者,我們關心自然語言領域的工具和方法。

廣義上,利用計算機處理的任何自然語言,均視為自然語言處理,或縮寫為NLP。一個極端的理解比如說,可以簡單地通過統計詞頻來比較不同作者的寫作風格。另一個極端理解是,NLP應該包括理解完整的人類話語,至少某種程度給予有意義的回應。

— 第9頁,利用python進行自然語言處理,2009。

自然語言處理(NLP)指人類語言的一系列自動處理過程的集合名詞。它既包含處理人類輸出的文本,也包含輸出人類可以看的文本。

— 第18頁,利用神經網路進行自然語言處理, 2017。

語言學的目標是可以將我們周圍所能大量觀察到的對話、文章文本和其他媒介特徵化並對其進行解釋。這裡既包括研究人類認知,產生和理解語言的能力,也包含理解語言表達方式和客觀世界的關係,還包含理解不同語言的語言結構。

— 第3頁,統計自然語言處理,1999。

這些是必備的數學、統計自然語言處理知識。我的建議是如果你想深入探索機器學習,你至少需要掌握提到的一些概念。

· · ·

你過去可能想知道機器學習到底用到了哪些數學知識,這篇文章算是給你介紹了機器學習(AI)的起步階段所需的一些數學概念。下章我會討論如何把數學概念落實到用Python編程中去,為此,也會對Python這門編程語言及其生態系統作介紹,敬請期待吧!

· · ·

博客原址:

https://medium.com/meta-design-ideas/math-stats-and-nlp-for-machine-learning-as-fast-as-possible-915ef47ced5f

更多文章,關注雷鋒網 雷鋒網(公眾號:雷鋒網)

添加雷鋒字幕組微信號(leiphonefansub)為好友

備註「我要加入」,To be an AI Volunteer !

4 月 AI 求職季

8 大明星企業

10 場分享盛宴

20 小時獨門秘籍

4.10-4.19,我們準時相約!

新人福利

關注 AI 研習社(okweiwu),回復1領取

【超過 1000G 神經網路 / AI / 大數據資料】

機器學習各種熵:從入門到全面掌握


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

深度解密換臉應用 Deepfake

TAG:AI研習社 |