CVPR 2017最佳論文解讀：密集連接卷積網路

新聞 07-26

機器之心專欄

作者：胡傑

日前，CVPR 2017獲獎論文公布，其中一篇最佳論文為康奈爾大學、清華大學、Facebook FAIR 實驗室合著的《Densely Connected Convolutional Networks》。在這篇文章中，Momenta 高級研發工程師胡傑對這篇文章進行了解讀。此文為該系列專欄的第三篇。

近幾年來，隨著卷積神經網路（CNNs）的迅速發展，學術界湧現出一大批非常高效的模型，如 GoogleNet、VGGNet、ResNet 等，在各種計算機視覺任務上均嶄露頭角。但隨著網路層數的加深，網路在訓練過程中的前傳信號和梯度信號在經過很多層之後可能會逐漸消失。先前有一些非常好的工作來解決這一問題。如在 Highway 和 ResNet 結構中均提出了一種數據旁路（skip-layer）的技術來使得信號可以在輸入層和輸出層之間高速流通，核心思想都是創建了一個跨層連接來連通網路中前後層。在本文中，作者基於這個核心理念設計了一種全新的連接模式。為了最大化網路中所有層之間的信息流，作者將網路中的所有層兩兩都進行了連接，使得網路中每一層都接受它前面所有層的特徵作為輸入。由於網路中存在著大量密集的連接，作者將這種網路結構稱為 DenseNet。其結構示意圖如下左圖所示：

CVPR 2017最佳論文解讀：密集連接卷積網路

它主要擁有以下兩個特性：1）一定程度上減輕在訓練過程中梯度消散的問題。因為從上左圖我們可以看出，在反傳時每一層都會接受其後所有層的梯度信號，所以不會隨著網路深度的增加，靠近輸入層的梯度會變得越來越小。2）由於大量的特徵被複用，使得使用少量的卷積核就可以生成大量的特徵，最終模型的尺寸也比較小。

上右圖所示的是構成 DenseNet 的單元模塊，看上去和 ResNet 的單元模塊非常相似，但實際上差異較大。我對結構設計上的細節進行了以下總結：

1）為了進行特徵復用，在跨層連接時使用的是在特徵維度上的 Concatenate 操作，而不是 Element-wise Addition 操作。

2）由於不需要進行 Elewise-wise 操作，所以在每個單元模塊的最後不需要一個 1X1 的卷積來將特徵層數升維到和輸入的特徵維度一致。

3）採用 Pre-activation 的策略來設計單元，將 BN 操作從主支上移到分支之前。（BN->ReLU->1x1Conv->BN->ReLU->3x3Conv）

4）由於網路中每層都接受前面所有層的特徵作為輸入，為了避免隨著網路層數的增加，後面層的特徵維度增長過快，在每個階段之後進行下採樣的時候，首先通過一個卷積層將特徵維度壓縮至當前輸入的一半，然後再進行 Pooling 的操作。如下圖所示：

CVPR 2017最佳論文解讀：密集連接卷積網路

5）增長率的設置。增長率指的是每個單元模塊最後那個 3x3 的卷積核的數量，記為 k。由於每個單元模塊最後是以 Concatenate 的方式來進行連接的，所以每經過一個單元模塊，下一層的特徵維度就會增長 k。它的值越大意味著在網路中流通的信息也越大，相應地網路的能力也越強，但是整個模型的尺寸和計算量也會變大。作者在本文中使用了 k=32 和 k=48 兩種設置。

作者基於以上原則針對於 ImageNet 物體識別任務分別設計了 DesNet-121(k=32)、DesNet-169(k=32)、DesNet-201(k=32) 和 DesNet-161(k=48) 四種網路結構。其網路的組織形式和 ResNet 類似，也是分為 4 個階段，將原先的 ResNet 的單元模塊進行了替換，下採樣過程略有不同。整體結構設計如下所示：

CVPR 2017最佳論文解讀：密集連接卷積網路

在 ImageNet 上的實驗結果如下：

CVPR 2017最佳論文解讀：密集連接卷積網路

上左圖表示的是參數量和錯誤率的關係，上右圖表示的是模型測試的計算量和錯誤率的關係。我們不難看出，在達到相同精度時，DenseNet 的參數量和計算量均為 ResNet 的一半左右。

總的來說，這是一篇非常有創新性的工作，提出了共享特徵、任意層間互連的概念很大程度上減輕了深層網路在訓練過程中梯度消散而難以優化的問題，同時也減小了模型的尺寸和計算量，在標準數據集上獲得了非常好的性能。唯一可能的不足是網路不能設計地特別「深」，因為隨著 DenseNet 網路層數的增加，模型的特徵維度會線性增長，使得在訓練過程中的計算量和顯存開銷也會爆發地增長。

Q&A：

1.DenseNet 是否可以在物體檢測任務中使用？效果如何？

A：當然，DenseNet 可以通過和 ResNet 一樣的方法被應用到物體檢測任務中。但是作者並沒有在物體檢測任務上進行實驗，如果關注 DenseNet 在物體檢測任務上的效果，可以參考第三方的將 DenseNet 用在物體檢測任務上的實驗結果。

2.通過圖表可以看到，DenseNet 在相對較小計算量和相對較小的模型大小的情況下，相比同等規模的 ResNet 的準確率提升會更明顯。是否說明 DenseNet 結構更加適合小模型的設計？

A：確實，在小模型的場景下 DenseNet 有更大的優勢。同時，作者也和近期發表的 MobileNet 這一針對移動端和小模型設計的工作進行了對比，結果顯示 DenseNet（~400MFlops）可以在更小的計算量的情況下取得比 MobileNet（~500MFlops）更高的 ImageNet 分類準確率。

3.DenseNet 中非常關鍵的連續的跨層 Concatenate 操作僅存在於每個 Dense Block 之內，不同 Dense Block 之間則沒有這種操作，是怎樣一種考慮？

A：事實上，每個 Dense Block 最後的特徵圖已經將當前 Block 內所有的卷積模塊的輸出拼接在一起，整體經過降採樣之後送入了下一個 Dense Block，其中已經包含了這個 Dense Block 的全部信息，這樣做也是一種權衡。

4.DenseNet 這樣的模型結構在訓練過程中是否有一些技巧？

A：訓練過程採用了和 ResNet 的文章完全相同的設定。但仍然存在一些技巧，例如因為多次 Concatenate 操作，同樣的數據在網路中會存在多個複製，這裡需要採用一些顯存優化技術，使得訓練時的顯存佔用可以隨著層數線性增加，而非增加的更快，相關代碼會在近期公布。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※CVPR 2017論文解讀：特徵金字塔網路FPN
※DeepMind ICML 2017論文：超越傳統強化學習的價值分布方法

TAG:機器之心 |

您可能感興趣

※CVPR 2018 | 殘差密集網路：利用所有分層特徵的圖像超解析度網路
※「過氣網紅」的掙扎，大連2艘052D密集海試引關注！
※雙盤密集實修營10/26-28北京
※雙盤密集實修營8/17-19北京
※北京P2P密集增資全國實繳5億以上平台達20家
※10天200次！密集震群再襲美國黃石火山，NASA：地球或重回冰河期
※俄羅斯S500密集測試，將在2020年前裝備部隊，中國還會引進嗎？
※匹配VR密集型數據，SD卡新規範最高儲存可達128T
※情報：利民網新增回款近1300萬；8家險企5月密集增資36億
※11/16 11/21李淑貞老師北京場形家風水6天密集班
※早報-耐克2000萬植入「跳一跳」廣告；區塊鏈公司密集註冊
※曠視科技Face++提出RepLoss，優化解決密集遮擋問題｜CVPR 2018
※什麼是多尺度密集網路 - MSDNet？
※18/19英冠盈利秘籍：下盤居多適博高賠，1：1比分或密集出現
※6架F16硬闖S300導彈陣地,艙內傳來密集警報,美方:全部前功盡棄了
※跨國車企的新能源汽車戰略：多元化技術儲備 2020-2025年密集上新
※密集恐懼刨絲器？蘋果WWDC19八大亮點3個遺憾
※壯觀！1天40000人爆棚寬32米海灘上，堪稱世界上遊客最密集的海灘
※小米7Lite/MIX3S/紅米Note6：多款小米新機密集曝光
※互金情報局：利民網新增回款近1300萬；8家險企5月密集增資36億元；上海銀保監局連開7張罰單