不知道如何開始機器學習?這有份初學者指南!
本文為雷鋒字幕組編譯的技術博客,原標題Math, Stats and NLP for Machine Learning: As Fast As Possible,作者為Souman Roy。
翻譯 | 廖穎 龍珂宇 Noddleslee J叔 整理 | 凡江
機器學習: 引言
聽過人們談論過機器學習,但對它的概念卻是一知半解?
想要從零開始機器學習,卻被網路上的海量資源沖昏頭腦?
不用擔心,我們給你們提供了機器學習從0到1系列,這個系列可以讓你從入門到精通。
現在就開始學習吧!
· · ·
這份指南是為了那些對機器學習感興趣,但不知如何開始的朋友們準備的。我想大多厭倦在網上搜索大量資料的人都會有挫敗感,也放棄了有人能指引他們如何入門的希望。
這個系列的目標,就是教會你們從初學者的角度,正確學習機器學習。
· · ·
為什麼說數學是必須的?
機器學習建立在一些數學的基礎課程上的,比如微積分,線性代數,概率論,統計學和最優化。這篇文章旨在幫助你們學習一些基本概念,並提供一個可在 Jupiter Notebook 上使用 python 程序設計語言的可操作方法。
第 1 步 : 線性代數
線性代數是在計算機里設計優化演算法的一種方式?——可以解決線性系統約束問題。
線性代數中你需要了解的概念:
#1 矩陣的秩;
#2 矩陣向量積;
#3 矩陣的列空間和零空間;
#4 特徵值和特徵向量;
#5 矩陣的奇異值分解;
這是一個了解線性代數概念的速查表:
來源:https://minireference.com/static/tutorials/linear_algebra_in_4_pages.pdf
第 2 步:概率論和數理統計
這一數學分支是用來解決隨機分布量問題的。
概率論與數理統計中你需要了解的概念:
概率論:
#1 計數方法和組合方法;
#2 貝葉斯理論;
#3 隨機變數;
#4 期望;
#5 方差;
#6 條件分布和聯合分布;
#7 矩量母函數;
#8 指數型分布族;
數理統計:
#1 最大似然估計;
#2 最大後驗概率;
#3 先驗概率和後驗概率;
#4 抽查法;
#5 吉布斯現象;
#6 平均數,眾數,中位數,方差;
這是一個了解概率論和數理統計概念的速查表 :
來源:
https://static1.squarespace.com/static/54bf3241e4b0f0d81bf7ff36/t/55e9494fe4b011aed10e48e5/1441352015658/probability_cheatsheet.pdf
來源:http://web.mit.edu/~csvoss/Public/usabo/stats_handout.pdf
第 3 部:多元微積分
經典微積分研究變數和變化率之間的關係。但在機器學習中,我們主要使用微分運算來求解函數的極值,使用積分運算來求解概率模型。
多元微積分中你需要掌握的概念
#1 向量值函數
#2 偏導函數
#3 梯度
#4 方向梯度
#5 黑塞運算元
#6 雅各比運算元
#7 拉普拉斯運算元(低量運算元)
#8 拉格朗日乘子
第 4 步:資訊理論入門
資訊理論是應用數學的一個分支,它關注如何「度量「信息。
資訊理論中你需要掌握的概念:
#1 熵
#2 互信息
#3 信息增益
#4 KL散度(相對熵)
來源:http://tuvalu.santafe.edu/~simon/cheat_sheet_info.pdf
第 5 步:NLP(自然語言處理)
自然語言出來指的是利用軟體自動地處理注入講話和文本的技術。
做為對文本數據感興趣的機器學習實踐者,我們關心自然語言領域的工具和方法。
廣義上,利用計算機處理的任何自然語言,均視為自然語言處理,或縮寫為NLP。一個極端的理解比如說,可以簡單地通過統計詞頻來比較不同作者的寫作風格。另一個極端理解是,NLP應該包括理解完整的人類話語,至少某種程度給予有意義的回應。
— 第9頁,利用python進行自然語言處理,2009。
自然語言處理(NLP)指人類語言的一系列自動處理過程的集合名詞。它既包含處理人類輸出的文本,也包含輸出人類可以看的文本。
— 第18頁,利用神經網路進行自然語言處理, 2017。
語言學的目標是可以將我們周圍所能大量觀察到的對話、文章文本和其他媒介特徵化並對其進行解釋。這裡既包括研究人類認知,產生和理解語言的能力,也包含理解語言表達方式和客觀世界的關係,還包含理解不同語言的語言結構。
— 第3頁,統計自然語言處理,1999。
這些是必備的數學、統計自然語言處理知識。我的建議是如果你想深入探索機器學習,你至少需要掌握提到的一些概念。
· · ·
你過去可能想知道機器學習到底用到了哪些數學知識,這篇文章算是給你介紹了機器學習(AI)的起步階段所需的一些數學概念。下章我會討論如何把數學概念落實到用Python編程中去,為此,也會對Python這門編程語言及其生態系統作介紹,敬請期待吧!
· · ·
博客原址:
https://medium.com/meta-design-ideas/math-stats-and-nlp-for-machine-learning-as-fast-as-possible-915ef47ced5f
更多文章,關注雷鋒網 雷鋒網(公眾號:雷鋒網)
添加雷鋒字幕組微信號(leiphonefansub)為好友
備註「我要加入」,To be an AI Volunteer !
4 月 AI 求職季
8 大明星企業
10 場分享盛宴
20 小時獨門秘籍
4.10-4.19,我們準時相約!
新人福利
關注 AI 研習社(okweiwu),回復1領取
【超過 1000G 神經網路 / AI / 大數據資料】
機器學習各種熵:從入門到全面掌握
TAG:AI研習社 |