僅使用NumPy完成卷積神經網路CNN的搭建

知識 04-29

現有的Caffe、TensorFlow等工具箱已經很好地實現CNN模型，但這些工具箱需要的硬體資源比較多，不利於初學者實踐和理解。因此，本文教大家如何僅使用NumPy來構建卷積神經網路（Convolutional Neural Network , CNN）模型，具體實現了卷積層、ReLU激活函數層以及最大池化層（max pooling），代碼簡單，講解詳細。

目前網路上存在很多編譯好的機器學習、深度學習工具箱，在某些情況下，直接調用已經搭好的模型可能是非常方便且有效的，比如Caffe、TensorFlow工具箱，但這些工具箱需要的硬體資源比較多，不利於初學者實踐和理解。因此，為了更好的理解並掌握相關知識，最好是能夠自己編程實踐下。本文將展示如何使用NumPy來構建卷積神經網路（Convolutional Neural Network , CNN）。

CNN是較早提出的一種神經網路，直到近年來才變得火熱，可以說是計算機視覺領域中應用最多的網路。一些工具箱中已經很好地實現CNN模型，相關的庫函數已經完全編譯好，開發人員只需調用現有的模塊即可完成模型的搭建，避免了實現的複雜性。但實際上，這樣會使得開發人員不知道其中具體的實現細節。有些時候，數據科學家必須通過一些細節來提升模型的性能，但這些細節是工具箱不具備的。在這種情況下，唯一的解決方案就是自己編程實現一個類似的模型，這樣你對實現的模型會有最高級別的控制權，同時也能更好地理解模型每步的處理過程。

本文將僅使用NumPy實現CNN網路，創建三個層模塊，分別為卷積層（Conv）、ReLu激活函數和最大池化（max pooling）。

一、讀取輸入圖像

以下代碼將從skimage Python庫中讀取已經存在的圖像，並將其轉換為灰度圖：

讀取圖像是第一步，下一步的操作取決於輸入圖像的大小。將圖像轉換為灰度圖如下所示：

二、準備濾波器

以下代碼為第一個卷積層Conv準備濾波器組（Layer 1，縮寫為l1，下同）：

根據濾波器的數目和每個濾波器的大小來創建零數組。上述代碼創建了2個3x3大小的濾波器，（2,3,3）中的元素數字分別表示2：濾波器的數目（num_filters）、3：表示濾波器的列數、3：表示濾波器的行數。由於輸入圖像是灰度圖，讀取後變成2維圖像矩陣，因此濾波器的尺寸選擇為2維陣列，捨去了深度。如果圖像是彩色圖（具有3個通道，分別為RGB），則濾波器的大小必須為（3,3,3），最後一個3表示深度，上述代碼也要更改，變成（2,3,3,3）。

濾波器組的大小由自己指定，但沒有給定濾波器中具體的數值，一般採用隨機初始化。下列一組值可以用來檢查垂直和水平邊緣：

三、卷積層（Conv Layer）

構建好濾波器後，接下來就是與輸入圖像進行卷積操作。下面代碼使用conv函數將輸入圖像與濾波器組進行卷積：

conv函數只接受兩個參數，分別為輸入圖像、濾波器組：

該函數首先確保每個濾波器的深度等於圖像通道的數目，代碼如下。if語句首先檢查圖像與濾波器是否有一個深度通道，若存在，則檢查其通道數是否相等，如果匹配不成功，則報錯。

此外，濾波器的大小應該是奇數，且每個濾波器的大小是相等的。這是根據下面兩個if條件語塊來檢查的。如果條件不滿足，則程序報錯並退出。

上述條件都滿足後，通過初始化一個數組來作為濾波器的值，通過下面代碼來指定濾波器的值：

由於沒有設置步幅（stride）或填充（padding），默認為步幅設置為1，無填充。那麼卷積操作後得到的特徵圖大小為（img_rows-filter_rows+1, image_columns-filter_columns+1, num_filters），即輸入圖像的尺寸減去濾波器的尺寸後再加1。注意到，每個濾波器都會輸出一個特徵圖。