卷積神經網路工作原理直觀的解釋？

知識 10-12

本文原作者雨宮夏一，本文整理自作者在知乎《卷積神經網路工作原理直觀的解釋？》問題下的回答。AI 研習社已獲得轉載授權。

其實我們在做線性回歸也好，分類（邏輯斯蒂回歸）也好，本質上來講，就是把數據進行映射，要麼映射到一個多個離散的標籤上，或者是連續的空間裡面，一般簡單的數據而言，我們很好擬合，只要線性變化一下，然後學習出最好的 W 就可以了。

但是對於一些比較複雜的數據怎麼辦呢？比如說，對於一個二分類問題，特別是高緯度複雜化之後，數據不一定是線性可分的，這個時候，我們的 basis function 隆重登場，我們可以把數據進行一定的映射，轉變，非線性的線性的，轉變之後，就可以進行分類。最明顯的例子在 andrew NG 在講 SVM 裡面的例子就很好的說明了，但是這個時候問題來了，對於一個很複雜，高維度的數據，我們如何才能找到最好的 basis function 呢？這個時候，神經網路隆重登場，我們把我們的 basis function 打開來，我們把誤差轉遞到 basis function 的裡面，通過這樣的方式，來得到最好的 basis function，同理，我們可以無限打開 basis function，一直打開，對應的也就是一層神經網路（具體出自於 prml 關於神經網路的章節最開始簡介的部分）。

但是問題來了，對於圖片怎麼辦？我們知道，對於圖片而言，圖片是一個二維度的數據，我們怎樣才能通過學習圖片正確的模式來對於一張圖片有正確的對於圖片分類呢？這個時候，有人就提出了一個觀點，我們可以這樣，對於所有的像素，全部都連接上一個權值，我們也分很多層，然後最後進行分類，這樣也可以，但是對於一張圖片來說，像素點太多，參數太多了。然後就有人提出來，我們只看一部分怎麼樣，就是對於一張圖片來說，我們只看一個小窗口就可以了，對於其他的地方，我們也提供類似的小窗口，我們知道，當我們對圖片進行卷積的時候，我們可以對圖片進行很多操作，比如說圖片整體模糊，或者是邊緣的提取，卷積操作對於圖片來說可以很好的提取到特徵，而且通過 BP 誤差的傳播，我們可以根據不同任務，得到對於這個任務最好的一個參數，學習出相對於這個任務的最好的卷積核，之所以權值共享的邏輯是：如果說一個卷積核在圖片的一小塊兒區域可以得到很好的特徵，那麼在其他的地方，也可以得到很好的特徵。

這就有了 alex net 的提出，通過對圖片進行五層（不知道有沒有記憶錯誤）的卷積，然後後面三層的全連接，我們可以得到一個很好的結果，特別的相對於更大的數據集而言，最好參數越多越好，也就是網路最好更加深，更加的寬。

但是神經網路到底是什麼？對於一批數據我們有很多的問題，為什麼設置五層最好，batchsize 多少比較好，每一層多少個卷積核（這個到現在我依舊沒有一個更好的解釋，每一個應該多少卷積核），寬度多少？要不要 LRN？每一層都代表了什麼？

這些的解釋，就要好好看看今年 CVPR 的文章 Visualizing and Understanding Convolutional Networks 這篇文章寫的很棒，而且 2015 CVPR 出了很多對於卷積神經網路理解的文章，這篇文章提出了一個反卷積的方法 (De-convolution) 的方法，這樣我們就可以好好看看每一層卷積神經網路到底做了什麼事情：

首先第一層的返卷積（上面是反卷積的圖片，下面對於第一層來說，激活值最大的圖片）：

我們看到，第一個卷積層只是表達了簡單的圖片的邊緣而已，我們來看第二層：

第二層稍稍複雜了一點點，可以包含的不僅僅是一個邊緣，可以是幾個邊緣的組合

第三層：

第四層：

第五層：

我們看到，每一層都是對於一張圖片從最基礎的邊緣，不斷到最複雜的圖片自己本身。

同時在進行反卷積的時候 M.D. Zeiler and R. Fergus 也發現，對於第一層的 alexnet，會得到頻度很高的像素（也就是顏色很深），所以他們也提出了應該要減小窗口，這樣可以得到頻度比較適中的像素：

當圖片卷積完之後，會把一個圖片對於這一類本身最獨特的部分凸顯出來，然後來進行判斷，這一類到底是什麼？有下面的實驗截圖：

最左邊的圖像是原圖像，作者蓋住不同的區域，來分析對於一張圖片，經過五次卷積之後，到底是如何判斷的，我們看到卷積到最後（左三），比較凸顯出來的是狗的頭部，左二和右二的意思是，當我們遮住不同的區域，判斷是狗的幾率，紅色區域代表概率很高，藍色區域代表概率很低，我們發現，當我們遮擋住狗的頭的地方的時候，我們得到這個物體時狗的概率最低，這個側面證明了，所謂卷積神經網路，就是會自動的對於一張圖片學習出最好的卷積核以及這些卷積核的組合方式，也就是對於一張圖片的任務來說，求出最好的圖片對於本任務的特徵的表達，然後來進行判斷

還有一篇文章也助於理解，

Understanding Deep Image Representations by Inverting Them

這篇對於卷積每一層都不斷的還原到最原始的圖片：

越是到後面，圖片越模糊，但是它自己獨特的部分，卻凸顯了出來。（也就是這個猩猩還是狒狒的頭的部分）

還望指正，多謝。

新人福利

關注 AI 研習社（okweiwu），回復1領取

【超過 1000G 神經網路 / AI / 大數據，教程，論文】

一文詳解卷積神經網路的演變歷程！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！