對比圖像分類五大方法：KNN、SVM、BPNN、CNN和遷移學習

科技 05-17

選自Medium

機器之心編譯

參與：蔣思源、黃小天、吳攀

圖像分類是人工智慧領域的基本研究主題之一，研究者也已經開發了大量用於圖像分類的演算法。近日，Shiyu Mou 在 Medium 上發表了一篇文章，對五種用於圖像分類的方法（KNN、SVM、BP 神經網路、CNN 和遷移學習）進行了實驗比較，該研究的相關數據集和代碼也已經被發布在了 GitHub 上。

項目地址：https://github.com/Fdevmsy/Image_Classification_with_5_methods

圖像分類，顧名思義，就是為輸入圖像打上固定類別的標籤。這是計算機視覺領域的核心問題之一。儘管聽起來很簡單，但圖像分類有大量不同的實際應用。

傳統方式：特徵描述和檢測

對比圖像分類五大方法：KNN、SVM、BPNN、CNN和遷移學習

也許對一些樣本任務有好處，但實際情況要複雜得多。

對比圖像分類五大方法：KNN、SVM、BPNN、CNN和遷移學習

因此，我們並沒有通過代碼的形式直接指出每一類型的外觀（visual appearance），而是使用機器學習——為計算機提供每一類的諸多實例，接著開發學習演算法觀察這些實例，並學習每一類的外觀。

然而，圖像分類如此複雜，以至於其處理經常用到深度學習模型，比如 CNN（卷積神經網路）。我們已經知道，我們在課堂上學習的不少演算法（如 KNN、SVM）通常很擅長數據挖掘；但是對於圖像分類，它們卻不是最佳選擇。

因此，我們將對課堂中學到的以及 CNN 和遷移學習等演算法做一個對比。

目標

我們的目標是：

1. 把 KNN、SVM、BP 神經網路與業界處理圖像識別問題的演算法——CNN 和遷移學習——進行對比。

2. 獲得深度學習經驗。

3. 通過 TensorFlow 探索機器學習框架。

系統設計 & 實現細節

演算法與工具

本項目使用的 5 個方法是 KNN、SVM、BP 神經網路、CNN 和遷移學習。

全項目可分為 3 類方法：

第一類方法：使用 KNN、SVM、BP 神經網路這些課堂演算法。這些演算法強大易實現。我們主要使用 sklearn 實現這些演算法。

第二類方法：儘管傳統的多層感知器模型已成功應用於圖像識別，但由於其節點之間的全連接性，它們遭遇了維度的難題，從而不能很好地擴展到更高解析度的圖像。因此我們使用深度學習框架 TensorFlow 打造了一個 CNN。

第三個方法：重新訓練一個被稱作 Inception V3 的預訓練深度神經網路的最後一層，同樣由 TensorFlow 提供。Inception V3 是為 ImageNet 大型視覺識別挑戰賽訓練的，使用了 2012 年的數據。這是計算機視覺的常規任務，其中模型試圖把全部圖像分為 1000 個類別，比如斑馬、達爾阿提亞人和洗碗機。為了再訓練這一預訓練網路，我們要保證自己的數據集沒有被預訓練。

實現

第一類方法：預處理數據集，並使用 sklearn 實現 KNN、SVM、BP 神經網路。

首先，我們使用 OpenCV 包定義了 2 個不同的預處理函數：第一個是圖像到特徵向量，它可以重調圖像大小，並把圖像轉化為行像素列表；第二個是提取顏色直方圖，即使用 cv2.normalize 從 HSV 顏色空間提取 3D 顏色直方圖，並平化（flatten）結果。

接著，建構若干個我們需要解析的參數。由於想要同時測試整個數據集和帶不同數量標籤的子數據集的精確度，我們構建了一個作為參數的數據集並解析進我們的程序。我們同樣構建了用於 k-NN 方法的鄰元素數作為解析參數。

之後，我們開始提取數據集中的每一圖像特徵，並將其放入數組。我們使用 cv2.imread 讀取每一圖像，通過從圖像名稱中提取字元串來拆分標籤。在我們的數據集中，我們使用相同格式——類別標籤. 圖像序號.jpg——設置名稱，因此我們可以輕易提取每張圖像的分類標籤。接著我們使用這兩個函數提取 2 種特徵並附加到數組 rawImages，而之前提取的標籤附加到數組標籤。

下一步是使用從 sklearn 包導入的函數 train_test_split 拆分數據集。這個集具有後綴 RI，RL 是 rawImages 和標籤對的拆分結果，另一個是特徵和標籤對的拆分結果。我們使用 85% 的數據集作為訓練集，餘下的 15% 作為測試集。

最後，我們應用 KNN、SVM、BP 神經網路函數評估數據。對於 KNN 我們使用 KNeighborsClassifier，對於 SVM 我們使用 SVC，對於 BP 神經網路我們使用 MLPClassifier。

第二類方法：使用 TensorFlow 構建 CNN。TensorFlow 的全部目的在於使你打造一張計算圖（使用 Python 等語言），接著在 C++ 中執行該圖（在相同計算量的情況下，C++比 Python 更高效）。

TensorFlow 也可自動計算優化圖變數所需的梯度，從而使模型表現更好。這是由於該圖由簡單的數學表達式組合而成，因此可通過導數鏈式法則計算全圖的梯度。

一張 TensorFlow 圖包含以下幾個部分，每一部分將在下文詳述：

佔位符變數，用於輸入數據到圖。

優化向量以使卷積網路表現更好。

卷積網路的數學公式。

可用於指導變數優化的成本衡量標準。

更新變數的優化方法。

CNN 架構由一堆不同的層組成，這些層通過可微分函數可把輸入量轉化為輸出量。

因此，在我們的實現中，第一層是保存圖像，接著我們使用 2 x 2 最大池化和修正線性單元（ReLU）的構建 3 個卷積層。輸入是 4 維張量：

圖像序號。

每一圖像的 Y 軸。

每一圖像的 X 軸。

每一圖像的通道（channel）。

輸出是另一個 4 維張量：

圖像序號，與輸入相同。

每一圖像的 Y 軸。如果使用 2x2 池化，接著輸入圖像的高和寬除以 2。

每一圖像的 X 軸。同上。

由卷積濾波器生成的通道。

接著，我們我們在網路末端構建了 2 個全連接層。輸入是一個 2 維的形狀張量 [num_images、num_inputs]。輸出也是一個 2 維的形狀張量 [num_images、num_outputs]

然而，為了連接卷積層和全連接層，我們需要一個平層（Flatten Layer）以把 4 維向量減少至可輸入到全連接層的 2 維。

CNN 末端通常是一個 softmax 層，它可歸一化來自全連接層的輸出，因此每一元素被限制在 0 與 1 之間，並且所有元素總和為 1。

第三種方法：再訓練 Inception V3。現代目標識別模型有數以百萬計的參數，並可能需要花費數周的時間才能完全訓練一個模型。遷移學習是一種採用在分類數據集（如 ImageNet）中已訓練的模型而快速完成這一工作的方法，因為其只需要重新訓練新類別的權重就行。雖然這樣的模型並沒有完全訓練的模型表現好，但對於許多應用來說，這是非常高效的，因為其不需要 GPU 並可以在筆記本上花半個小時就完成訓練。

讀者可以點擊一下鏈接進一步了解遷移學習的訓練過程：https://www.tensorflow.org/tutorials/image_retraining

首先我們需要獲取預訓練模型，並移除舊的頂層神經網路，然後再基於我們的數據集重新訓練一個輸出層。雖然貓的所有品種並沒有在原始 ImageNet 數據集和全訓練的模型中體現，但遷移學習的神奇之處就在於其可以利用已訓練模型用來識別某些目標的底層特徵，因為底層特徵可以在很多不更改的情況下應用於很多識別任務。然後我們分析本地的所有圖片並計算每張的瓶頸值（bottleneck values）。因為每張圖片在訓練過程中重複使用了多次，所以計算每個瓶頸值需要花費大量時間，但我們可以加快緩存這些瓶頸值，也就可以省去重複的計算。

該腳本將運行 4000 次訓練步。每一步從訓練集中隨機選擇 10 張圖片，並從緩存中搜索其瓶頸值，然後再將它們訓練最後一層以得到預測。這些預測會通過對比真實標註值而通過反向傳播過程更新最後一層的權重。

實驗

數據集

Oxford-IIIT Pet 數據集：http://www.robots.ox.ac.uk/~vgg/data/pets/

該數據集有 25 種狗和 12 種貓。每一種類別有 200 張相片。我們在該項目中只會使用 10 種貓。

在該項目中我們用的類別為 [斯芬克斯貓、暹羅貓、布偶貓、波斯貓、緬因貓、英國短毛貓、孟買貓、伯曼貓、孟加拉豹貓、阿比西尼亞貓]。

因此在數據集中我們總共有 2000 張圖片。雖然圖片的尺寸是不同的，但我們可以調整為固定的大小如 64x64 或 128x128。

預處理

在該項目中，我們主要使用 OpenCV 對圖片進行預處理，如讀取圖片放入陣列或調整為我們需要的大小等。

提升圖像訓練結果的一個常用方法就是對訓練輸入隨機進行變形、裁剪或亮度調整處理。由於採用了同一圖片所有可能的變體，該方法不僅具有擴展有效訓練數據大小的優點，同時還傾向幫助網路使用分類器學習處理所有在現實生活中可能出現的畸變。

具體請查看：https://github.com/aleju/imgaug.

評估

第一個方法：第一部分為預處理數據集和使用 sklearn 應用 KNN、SVM 和 BP 神經網路。

在程序中有很多參數可以調整：在 image_to_feature_vector 函數中，我們設置的圖片尺寸為 128x128，我們之前也嘗試過使用其他尺寸（如 8x8、 64x64、256x256）進行訓練。我們發現雖然圖片的尺寸越大效果越好，但大尺寸的圖片同樣也增加了執行時間和內存需求。因此我們最後決定使用 128x128 的圖片尺寸，因為其並不太大，同時還保證了準確度。

在 extract_color_histogram 函數中，我們將每個通道的二進位值設置為 32,32,32。在先前的函數中，我們還嘗試了 8, 8, 8 和 64, 64, 64。雖然更高的數值能有更優的結果，但同時也要求更長的執行時間，因此我們認為 32,32,32 是比較合適的。

對於數據集，我們訓練了 3 種。第一種是有 400 張圖片、2 種標註的子數據集。第二種是有 1000 張圖片、5 種標註的子數據集。最後一種是有 1997 張圖片、10 種標註的全數據集。我們將不同的數據集解析為程序中的參數。

在 KNeighborsClassifier 中，我們只改變近鄰的數量並儲存每一種數據集最優 K 值的分類結果。其他所有參數都設為默認。

在 MLPClassifier 中，我們設置每一個隱藏層有 50 個神經元。我們確實測試了多個隱藏層，但好像對最後的結果沒有明顯的變化。最大的迭代次數設置為 1000，並且為了確保模型能夠收斂，我們容忍差設置為 1e-4。同時還需要設置 L2 罰項的參數 alpha 為默認值，隨機狀態為 1，求解器設置為學習速率為 0.1 的「sgd」。

在 SVC 中，最大迭代次數為 1000，類別權重設置為「balanced」。

我們程序的運行時間並不會太久，對於我們的三種數據集大概分別花 3 到 5 分鐘左右。

第二種方法：使用 TensorFlow 構建 CNN

使用整個大數據集會需要很長的時間計算模型的梯度，因此我們在優化器每一次迭代中都只使用小批量的圖片更新權重，批量大小一般是 32 或 64。該數據集分為包含 1600 張圖片的訓練集、包含 400 張圖片的驗證集和包含 300 張圖片的測試集。

該模型同樣有許多參數需要調整。

首先是學習率。優良的學習率因為其足夠小而很容易令模型收斂，同時又足夠大令模型的收斂速度不至於太慢。所以我們選擇了 1 x 10^-4。

第二個需要調整的參數是投入到網路的圖片尺寸。我們訓練了 64x64 和 128x128 兩種圖片尺寸，結果表明尺寸越大模型精度就越高，但代價是運行時間會更長。

然後是神經網路層級數和它的形狀。然而實際上由於這一方面有太多的參數可以調整，所以很難在所有的參數間找到一個最優值。

根據網上的很多資源，我們發現對於構建神經網路，參數的選擇很大一部分都是根據已有的經驗。

最開始，我們希望構建相當複雜的神經網路，其所採用的參數如下：

# Convolutional Layer 1. filter_size1 = 5 num_filters1 = 64

# Convolutional Layer 2. filter_size2 = 5 num_filters2 = 64

# Convolutional Layer 3. filter_size3 = 5 num_filters3 = 128

# Fully-connected layer 1. fc1_size = 256

# Fully-connected layer 2. fc1_size = 256

我們採用 3 個卷積層和 2 個全連接層，它們的結構都比較複雜。

然而，我們的結果是：過擬合。對於這樣的複雜網路，訓練精度在迭代一千次後就達到了 100%，但測試精度僅僅只有 30%。最開始，我們十分疑惑為什麼模型會過擬合，然後開始隨機調整參數，但這時候模型的表現卻又變好了。幸好幾天後我碰巧讀到了 Google 在討論深度學習的一篇文章：https://medium.com/@blaisea/physiognomys-new-clothes-f2d4b59fdd6a 該文章指出他們所主導的項目是有問題的：「一個技術性的問題是如果少於 2000 個樣本，那麼其是不足以訓練和測試如同 AlexNet 那樣的卷積神經網路而不出現過擬合情況。」所以我才意識到我們的數據集實在是太小了，而網路構架又太複雜，這才產生了過擬合現象。

我們的數據集正好包含 2000 張圖片

因此，我開始減少神經網路的層級數和核函數的大小。我嘗試調整了很多參數，以下是我們最後使用的神經網路架構參數：

# Convolutional Layer 1. filter_size1 = 5 num_filters1 = 64

# Convolutional Layer 2. filter_size2 = 3 num_filters2 = 64

# Fully-connected layer 1. fc1_size = 128

# Number of neurons in fully-connected layer.

# Fully-connected layer 2. fc2_size = 128

# Number of neurons in fully-connected layer.

# Number of color channels for the images: 1 channel for gray-scale. num_channels = 3

我們僅僅使用 2 個小型的卷積層和 2 個全連接層。訓練結果並不好，在迭代 4000 次後同樣出現了過擬合現象，但測試精度還是要比前面的模型高 10%。

我們仍然在尋找解決的辦法，然而一個顯然易見的原因是我們的數據集實在是太小了，我們也沒有足夠的時間做更多的改進。

作為最後的結果，我們在 5000 次迭代後大概實現了 43% 的精度，該訓練花了一個半小時。實際上，我們對這一結果比較沮喪，因此我們準備使用另一標準數據集 CIFAR-10。

對比圖像分類五大方法：KNN、SVM、BPNN、CNN和遷移學習

CIFAR-10 數據集由 60000 張 32x32 10 類彩色圖片，每一個類別都有 6000 張圖片。該數據集包含了 50000 張訓練集和 10000 張測試集。

我們使用了和上面相同的神經網路架構，在 10 小時的訓練後，我們在測試集上實現了 78% 的準確度。

第三種方法：再訓練 Inception V3，我們隨機選取一些圖片進行訓練，而另一批圖片用於驗證。

該模型同樣有許多參數需要調整。

首先是訓練步，默認值是 4000 步。我們也可以根據情況增加或減少以儘快獲得一個可接受的結果。

隨後是學習率，該參數控制了在訓練期間更新至最後一層的量級。直觀地說，如果學習速率小，那麼需要更多的時間進行學習，但最終其可能收斂到更優的全局精度。訓練批量大小控制了在一個訓練步中檢查圖片的多少，又因為學習率應用於每一個批量，如果能以更大的批量獲得相似的全局效果，我們需要減少它。

因為深度學習任務所需要的運行時間通常很長，所以我們並不希望模型在訓練幾小時後實際上表現很糟糕。所以我們需要經常獲得驗證精度的報告。這樣我們同樣可以避免過擬合。數據集的分割是將 80% 的圖片投入到主要的訓練中，10% 的圖片作為訓練期間經常進行的驗證集，而剩下 10% 的圖片作為最終的測試集以預測分類器在現實世界中的表現。

結果

第一類方法：預處理數據集並使用 sklearn 實現 KNN、SVM 和 BP 神經網路。

結果在下表中。由於 SVM 結果非常差，甚至低於隨機猜測，我們不再展示其結果。

從結果中我們看到：

在 k-NN 中，原始像素和直方圖精確度是相對等同的。在 5 個標籤的子數據集，直方圖精確度比原始像素高一點；但是整體來講，原始像素的結果更好。

在神經網路 MLP 分類器中，原始像素精確度遠低於直方圖。對於整個數據集（10 個標籤），原始像素精確度甚至低於隨機猜測。

所有這 2 個 sklearn 方法並沒有良好表現，在整個數據集中（10 標籤數據集）識別正確分類的精確度僅約有 24%。這些結果說明，通過 sklearn 分類圖像效果欠佳，它們在使用多個類別分類複雜圖像時表現並不好。但是相比於隨機猜測，它們確實有提升，只是還不夠。

基於以上結果，我們發現為了提升精確度，使用一些深度學習方法很必要。

第二類方法：使用 TensorFlow 構建 CNN。如上所述，由於過擬合我們不能獲取好的結果。

正常情況下訓練需要半個小時，然而由於結果過擬合，我們認為這一運行時間並不重要。通過和第一類方法的比較，我們看到：儘管 CNN 過擬合訓練數據，我依然得到了更好的結果。

第三類方法：再訓練 Inception V3

整個訓練過程不超過 10 分鐘。我們獲得了極好的結果，並真正看到了深度學習和遷移學習的力量。

演示：

對比圖像分類五大方法：KNN、SVM、BPNN、CNN和遷移學習

結論

基於以上比較，我們可以看到：

KNN、SVM 和 BP 神經網路對於某些特定圖像分類任務是不夠的。

雖然我們會在 CNN 中過擬合，但這仍然比那些課堂方法要好。

遷移學習在圖像分類問題上效率很高，功能強大。它準確快速，可以在短時間內完成訓練——而且不需要 GPU 的幫助。即使你只有一個很小的數據集，它也可以達到很好的效果，並且減少了過擬合的概率。

我們已經從圖像分類任務中學到了很多，這類任務與課堂上的其他分類任務大不相同。數據集相對較大且稠密，需要的網路十分複雜，且大多方法依賴於 GPU 的計算能力。

經驗：

裁剪或重調圖像，使其更小

在訓練的每個迭代中隨機選擇一個小 batch

在驗證集進行驗證的時候隨機選擇一個小 batch，在訓練過程中頻繁記錄驗證分數

可以使用 Image Augmentation 處理圖片，增大數據集體量

對於圖像分類任務，我們需要比 200 x 10 的更大的數據集，CIFAR-10 數據集包含 6 萬張圖像。

越複雜的網路需要越大的數據集進行訓練

小心過擬合

註：第一種方法由 Ji Tong 實現：https://github.com/JI-tong

對比圖像分類五大方法：KNN、SVM、BPNN、CNN和遷移學習

套利交易實戰訓練營第七期開課啦！

套利交易的盈利模式、風控

套利切入點、止盈止損策略

宏觀分析研判對套利的提升

趨勢與價差的相互作用

有色金屬跨期價差判斷體系……

2017年5月21日—5月26日上海

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 大數據實驗室 的精彩文章:

※日進斗金不是夢，期權課程助你贏！
※大數據行業人士必知10大數據思維原理
※手機將在5年後消失？10年、30年後的世界，難以置信……
※985、211名校學生為什麼陷入群體性絕望？
※外匯交易訓練營開課報名通知

TAG:大數據實驗室 |

您可能感興趣

※vivo NEX雙屏版、華為Mate 20 Pro對比圖賞
※三星Note9、蘋果iPhone X對比圖賞
※OPPO Find X、vivo NEX對比圖賞：一看便知你最愛哪款！
※雷軍曬紅米Redmi Note 7 Pro與榮耀8X和V20對比圖
※B&O H9i、Bose QC 35 II、 Beats Studio 3 三大頭戴耳機對比圖賞
※vivo X23、iPhone XS Max對比圖賞
※外媒曝光iPhoneXPlus與Note9對比圖：邊框差異大
※OPPO Find X與iPhone X對比圖賞，誰更好看？
※華為P20Pro和iPhoneX拍照哪個好？華為P20 Pro和iPhone X手機相機成像對比圖賞
※iPhone XI與iPhone X對比圖：哪款合你審美？
※iPhoneX Plus與三星Note9對比圖，最大的差異竟在邊框之處？
※OPPO R15/OPPO R17對比圖賞：從內到外都煥然一新
※【曝光】三星Galaxy S10將會擁有陶瓷機身版本並泄露與iPhone XS Max尺寸對比圖
※OPPO R15三色對比圖賞：引領漸變潮流，最IN時尚單品
※OPPO R15、vivo X21對比圖賞：顏值各有千秋
※iPhone XSMax與華為Mate20Pro拍照對決：9組對比圖看出差距
※蘋果iPhone 9/9 Plus尺寸與iPhone X對比圖表
※耐克AIR JORDAN 1 AJ1小閃電真假對比圖 AJ1小閃電怎麼鑒別
※添可Pure One VS 戴森V11智能吸塵器對比圖賞
※常程曬聯想Z5和蘋果iPhone XR對比圖，網友：自取其辱