當前位置:
首頁 > 知識 > 不堆砌公式,用最直觀的方式帶你入門深度學習

不堆砌公式,用最直觀的方式帶你入門深度學習

不堆砌公式,用最直觀的方式帶你入門深度學習



Deeper,機器學習深度學習語音識別

因為近期要做一個關於深度學習入門的技術分享,不想堆砌公式,讓大家聽得一頭霧水不知不覺摸褲兜掏手機刷知乎。所以花了大量時間查資料看論文,有的博客或者論文寫得非常贊,比如三巨頭 LeCun,Bengio 和 Hinton 2015 年在 Nature 上發表綜述論文的「DeepLearning」,言簡意賅地引用了上百篇論文,但適合閱讀,不適合 presentation 式的分享;再如 Hulk 寫的電子書《神經網路與深度學習》(中文版,英文版)通俗易懂,用大量的例子解釋了深度學習中的相關概念和基本原理,但適合於抽兩三天的功夫來細品慢嚼,方能體會到作者的良苦用心;還有 Colah 寫的博客,每一篇詳細闡明了一個主題,如果已經入門,這些博客將帶你進階,非常有趣。


還翻了很多知乎問答,非常贊。但發現很多」千贊侯」走的是匯總論文視頻教程以及羅列代碼路線,本來想半小時入門卻一腳踏進了汪洋大海;私以為,這種適合於有一定實踐積累後按需查閱。還有很多」百贊戶」會拿雞蛋啊貓啊狗啊的例子來解釋深度學習的相關概念,生動形象,但我又覺得有避重就輕之嫌。我想,既然要入門深度學習,得有微積分的基礎,會求導數偏導數,知道鏈式法則,最好還學過線性代數;否則,真的,不建議入門深度學習。


最後,實在沒找到我想要的表達方式。我想以圖的方式概要而又系統性的呈現深度學習所涉及到的基本模型和相關概念。論文「A Critical Review of Recurrent Neural Networks forSequenceLearning」中的示意圖畫得簡單而又形象,足以說明問題,但這篇文章僅就 RNN 而展開論述,並未涉及CNN,RBM 等其它經典模型;Deeplearning4j上的教程貌似缺少關於編碼器相關內容的介紹,而UFLDL 教程只是詳細介紹了編碼器的方方面面。但是如果照抄以上三篇的圖例,又涉及到圖例中的模塊和符號不統一的問題。所以,索性自己畫了部分模型圖;至於直接引用的圖,文中已經給了鏈接或出處。如有不妥之處,望指正。以下,以饗來訪。


1.從經典的二分類開始說起,為此構建二分類的神經網路單元,並以 Sigmoid 函數和平方差損失(比較常用的還有交叉熵損失函數)函數來舉例說明梯度下降法以及基於鏈式法則的反向傳播(BP),所有涉及到的公式都在這裡:

不堆砌公式,用最直觀的方式帶你入門深度學習



2.神經元中的非線性變換激活函數(深度學習中的激活函數導引)及其作用(參考顏沁睿的回答),激活函數是神經網路強大的基礎,好的激活函數(根據任務來選擇)還可以加速訓練:

不堆砌公式,用最直觀的方式帶你入門深度學習


3.前饋性神經網路和自動編碼器的區別在於輸出層,從而引出無監督學習的概念;而降噪編碼器和自動編碼器的區別又在輸入層,即對輸入進行部分遮擋或加入雜訊;稀疏編碼器(引出正則項的概念)和自動編碼器的區別在隱藏層,即隱藏層的節點數大於輸入層節點數;而編碼器都屬於無監督學習的範疇。淺層網路的不斷棧式疊加構成相應的深度網路。

不堆砌公式,用最直觀的方式帶你入門深度學習



值得一提的是,三層前饋型神經網路(只包含一個隱藏層)的 word2vec(數學原理詳解)是邁向NLP的大門,包括 CBOW 和 skip-gram 兩種模型,另外在輸出層還分別做了基於 Huffman 樹的 Hierarchical Softmax 以及 negative sampling(就是選擇性地更新連接負樣本的權重參數)的加速。


4.受限波茲曼機 RBM 屬於無監督學習中的生成學習,輸入層和隱藏層的傳播是雙向的,分正向過程和反向過程,學習的是數據分布,因此又引出馬爾可夫過程和 Gibbs 採樣的概念,以及 KL 散度的度量概念:

不堆砌公式,用最直觀的方式帶你入門深度學習



與生成學習對應的是判別學習也就是大多數的分類器,生成對抗網路 GAN 融合兩者;對抗是指生成模型與判別模型的零和博弈,近兩年最激動人心的應用是從文本生成圖像(Evolving AI Lab - University ofWyoming):

不堆砌公式,用最直觀的方式帶你入門深度學習


5.深度網路的實現基於逐層貪心訓練演算法,而隨著模型的深度逐漸增加,會產生梯度消失或梯度爆炸的問題,梯度爆炸一般採用閾值截斷的方法解決,而梯度消失不易解決;網路越深,這些問題越嚴重,這也是深度學習的核心問題,出現一系列技術及衍生模型。

不堆砌公式,用最直觀的方式帶你入門深度學習



深度制勝,網路越深越好,因此有了深度殘差網路將深度擴展到 152 層,並在 ImageNe 多項競賽任務中獨孤求敗:

不堆砌公式,用最直觀的方式帶你入門深度學習



6.卷積神經網路在層與層之間採取局部鏈接的方式,即卷積層和採樣層,在計算機視覺的相關任務上有突出表現,關於卷積神經網路的更多介紹請參考我的另一篇文章(戳戳戳):

不堆砌公式,用最直觀的方式帶你入門深度學習



而在 NIPS 2016 上來自康奈爾大學計算機系的副教授 Killan Weinberger 探討了深度極深的卷積網路,在數據集 CIFAR-10 上訓練一個1202 層深的網路。


7.循環神經網路在隱藏層之間建立了鏈接,以利用時間維度上的歷史信息和未來信息,與此同時在時間軸上也會產生梯度消失和梯度爆炸現象,而 LSTM 和 GRU 則在一定程度上解決了這個問題,兩者與經典 RNN 的區別在隱藏層的神經元內部結構,在語音識別,NLP(比如 RNNLM)和機器翻譯上有突出表現(推薦閱讀):

不堆砌公式,用最直觀的方式帶你入門深度學習



RNN 模型在一定程度上也算是分類器,在圖像描述(Deep Visual-Semantic Alignments for Generating Image Descriptions)的任務中已經取得了不起的成果(第四節 GAN 用文本生成圖像是逆過程,注意區別):

不堆砌公式,用最直觀的方式帶你入門深度學習



另外,關於 RNN 的最新研究是基於 attention 機制來建立模型(推薦閱讀文章),即能夠在時間軸上選擇有效信息加以利用,比如百度App中的"為你寫詩"的功能核心模型就是 attention-based RNN encoder-decoder:

不堆砌公式,用最直觀的方式帶你入門深度學習


不堆砌公式,用最直觀的方式帶你入門深度學習



8.總結了深度學習中的基本模型並再次解釋部分相關的技術概念:

不堆砌公式,用最直觀的方式帶你入門深度學習



最後,現在深度學習在工業中的應用往往是整合多個模型到產品中去,比如在語音識別的端到端系統中,利用無監督模型或者CNN作為前期處理提取特徵,然後用 RNN 模型進行邏輯推理和判斷,從而達到可媲美人類交流的水平,如百度的DeepSpeech2:

不堆砌公式,用最直觀的方式帶你入門深度學習



畫圖是個細活慢活,周末加班很辛苦,覺得好就動動手指給個贊吧。


客官,這篇文章有意思嗎?


好玩!下載App接著看 (????) ?


再逛逛吧 ˊ_>ˋ


請您繼續閱讀更多來自 知乎日報 的精彩文章:

研究說環境污染會降低房價,我也不知道該不該開心
當孩子有這樣的表現,他很可能在學校被欺負了
很多年輕爸媽喜歡送孩子去早教班 這是個大誤區
吸進去的 PM2.5,真的出不來了嗎?
銀行的工作是個鐵飯碗嗎?

TAG:知乎日報 |

您可能感興趣

裝修不再是材料的堆砌而是生活方式的體驗
新中式軟裝,不能堆堆砌砌,更不能從歷史裡「借屍還魂」
非一般的母女裝!不用名牌堆砌的時尚態度
有人用磚頭堆砌成寶馬車,方向盤都有,寶馬公司想用真車跟他換
別再把卧室堆砌滿滿的,這樣裝會更好看!
不是硬體的簡單堆砌 帶你領略中興天機
家裝顏色用得好,高級感自然而然就來了,根本不必靠錢去堆砌
一身國潮也能搭配的很好看,TFBOYS王源示範潮流並不只靠大牌堆砌!
設計不是「堆砌」,不要在家居環境中選擇過多的裝飾材料
哥們騰出庭院一塊空地,堆砌磚塊,鄰居們都想過來做客
別用快速「堆砌」來糊弄自己,護膚別怕「慢」
黏稠的液體倒入到模具裡面,數分鐘之後獲得可堆砌建築的零食
G?活 最近在Ins瘋狂刷屏的就是這個以冰激凌堆砌而成的花球!
夢想中完美房子不一定要用大錢堆砌,他自建的哈比人房好吸引我
實拍印度的最大金廟:黃金堆砌而成,入廟必須脫鞋嚴禁光頭
最近在Ins瘋狂刷屏的就是這個以雪糕堆砌而成的花球!
一群瘋狂炫技隨意堆砌各種元素的瘋子,居然能做出這樣一部渾然天成的作品!
好久不見的宋佳這次機場Look竟失手?流行元素太多反顯堆砌!
屠城、血洗,白骨堆砌出的蒙古帝國,其瘋狂程度超乎你想像