當前位置:
首頁 > 科技 > 德國學者給CNN潑冷水:圖像分類策略太簡單,提高準確率全靠調參

德國學者給CNN潑冷水:圖像分類策略太簡單,提高準確率全靠調參

曉查 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

上面一堆雜亂無章的圖片,你能看出是什麼嗎?但CNN卻能很輕鬆地識別它們。其實,人與機器在這方面的差異,恰恰蘊含著神經網路分類策略背後簡單的邏輯。

最近,來自德國的一群學者構造了一個簡單模型BagNet,就是為了解答上面的疑惑。該模型可以在ImageNet上實現很高的準確率,甚至超過了AlexNet。文章已經發表在ICLR 2019上。

BagNet模型重要的意義在於,它不僅證明ImageNet比我們想像得要容易得多,還能幫助我們構建一個更具解釋性和透明度的圖像分類pipeline,從而更好地理解CNN背後的原理。

那麼,這個BagNet是用什麼構造出來的,它為何如此簡單而有神奇?

用古典模型設計神經網路

在深度學習出現以前,圖像識別使用的是一種特別簡單的方法:定義一組關鍵視覺特徵(「單詞」),識別每個視覺特徵在圖像中存在的頻率(「包」),然後根據這些數字對圖像進行分類。

舉個例子,如何分辨人和鳥,我們定義兩個關鍵視覺特徵「人眼」和「羽毛」。如果圖像中出現人眼,就把圖像是人的「證據」 1;如果出現羽毛,就把圖像是鳥的「證據」 1。

這就是特徵包模型,在深度學習出現之前,它曾是最先進的方法。但是在深度學習出現以後,它因為性能不佳又被拋棄。

但我們是否能確定今天的CNN與過去的「特徵包」使用了兩種截然不同的決策策略呢?

為了測試這一點,作者將「特徵包」與DNN的高性能結合起來。策略如下:

將圖像分割成q×q的小塊;

通過DNN傳遞patch獲得每個patch的類證據;

對所有類證據求和,達到圖像級決策。

為了用最簡單有效的方式實現這一策略,作者採用標準的ResNet-50架構,用1x1卷積替換掉大多數的3x3卷積。

在這種情況下,最後一個卷積層中的隱藏單元只能「看到」圖像的一小部分,其感受野遠小於圖像的整體尺寸。

作者將這種模型結構稱之為BagNet-q,其中q代表每個小塊的尺寸。

當q=17時,BagNet的性能已經達到與AlexNet相同的水平。當q=33時,top5的準確率能達到87.6%。在加上額外的超參數調整,BagNet還能達到更高的準確率。

以上結果證明:只需使用一組小圖的特徵即可解決ImageNet問題。對象形狀或對象部分之間的關係等遠程空間關係對分類結果影響不大,完全可以忽略。

可解釋的神經網路BagNet

因為BagNet用到了「特徵包」的策略,它的決策也是透明和可解釋的。我們可以查看哪個圖像特徵對於某個特定類判別的作用最大。

上圖中,最上面的手指圖像被識別成一種魚,因為這個類別中的大多數圖像中,都有漁民用手舉起魚的畫面。

同樣,我們還能得到一個精確定義的熱圖,顯示圖像的哪些部分有助於模型做出判定。

與ResNet-50驚人相似

BagNets的實驗結果表明,基於局部圖像特徵和對象類別之間的弱統計相關性,可以在ImageNet上達到很高的精度。

那麼,深度神經網路最強大的能力是否僅來自於對局部特徵的處理?

如果這就夠了,為什麼像ResNet-50這樣的標準深度神經網路會學到完全不同的東西?

如果豐富的局部圖像特徵足以解決圖像分類任務,為什麼還要讓ResNet-50了解更複雜的大尺度關係?

為了驗證現代DNN與特徵包模型有著類似的策略,作者又用下面的幾種「標記」來測試BagNet、ResNet、DenseNet和VGG:

決策對圖像特徵的空間改組是不變的(只能在VGG模型上測試);

不同圖像部分的修改應該是獨立的(對總類證據的影響而言);

標準CNN和BagNets產生的錯誤應該類似;

標準CNN和BagNets應該對類似的特徵敏感。

經過上面四項實驗,作者發現CNN和BagNets之間的行為非常相似。上面的實驗證明了BagNets最敏感的圖像部分與CNN基本相同。

實際上,BagNets的熱圖(靈敏度的空間圖)比DeepLift更好地預測了DenseNet-169的靈敏度。

人們繞了一圈後才發現,原來這些年的神經網路和並不比過去的特徵包在策略上高明多少。

當然,DNN並不完全類似於特徵包模型,確實顯示出一些偏差。特別是,網路越深,功能越來越大,遠程依賴性也越來越大。

因此,更深的神經網路確實改善了特徵包模型的性能,但作者認為其核心分類策略並沒有真正改變。

總結

總之,這篇論文的結果表明CNN可能遵循極其簡單的分類策略。更悲觀的說,這表明深度神經網路在過去幾年的進步大部分是通過調參取得的,從決策策略上來說,他比古典的特徵包模型並沒有高明太多。

因為缺乏對DNN的理解使我們無法發展出更好的模型和架構。而德國學者的這篇文章或許對我們深化深入理解神經網路有一定的啟發。

作者系網易新聞·網易號「各有態度」簽約作者

加入社群

量子位現開放「AI 行業」社群,面向AI行業相關從業者,技術、產品等人員,根據所在行業可選擇相應行業社群,在量子位公眾號(QbitAI)對話界面回復關鍵詞「行業群」,獲取入群方式。行業群會有審核,敬請諒解。

此外,量子位AI社群正在招募,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式。

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

喜歡就點「好看」吧 !


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

圍棋AI ELF OpenGo全面開源,田淵棟揭秘訓練過程
逆天的GPT-2居然還能寫代碼

TAG:量子位 |