「超越200層ResNet」顏水成團隊 CVPR 新架構，提速300%

新聞 07-15

1 新智元原創

「超越200層ResNet」顏水成團隊 CVPR 新架構，提速300%

本文意在為您簡要解讀最近在 arXiv 上一篇最新的文章《雙通道網路》（Dual Path Networks），原作者已經將源碼公開到了 GitHub。

在論文中，作者分析並證明了 ResNet 與 DenseNet 之間的重要聯繫：Densely Connected Network Family 里包含 Residual Network Family。作者分析了兩者各自的優缺點，並基於分析所得結論，提出了一類新的網路拓補結構：雙通道網路（Dual Path Network Family）。

「超越200層ResNet」顏水成團隊 CVPR 新架構，提速300%

論文地址：https://arxiv.org/pdf/1707.01629.pdf

ResNet 實際屬於 DenseNet

DenseNet 是由[1] 提出的一類不同於 ResNet 的網路結構。ResNet 將輸出與輸入相加，形成一個殘差結構；而 DenseNet 卻是將輸出與輸入相併聯——相併聯，相併聯（重要的事情說 3 遍），實現每一層都能直接得到之前所有層的輸出。

下圖中， (a/b) 展示了兩種網路。請注意兩者的區別，將 DenseNet 理解為一種有很多殘差連接的 ResNet 是非常錯誤的理解。

文中作者發現，Residual Networks 其實就是 Densely Connected Networks 的一種特例。這裡我們通過分析網路結構簡要證明下：

「超越200層ResNet」顏水成團隊 CVPR 新架構，提速300%

上圖中，假設實線箭頭代表一次變換（本例中指含激活函數的卷積），若 (b) 中綠色箭頭代表的函數相同，那麼我們就可以通過添加一個殘差通道（residual path）保留中間計算結果，將其化簡為 (c)。而 (c) 的形式恰恰就是一個殘差網路的形式（棕色點線）。

也就是說，一個 DenseNet 可以通過共享參數的方式，退化為 ResNet。ResNet 實際上就是 DenseNet 在跨層參數共享時候的特例。

本文認為：

1）ResNet 通過這種跨層參數共享和保留中間特徵的方式，可以有效的降低特徵上冗餘度，重複利用已有特徵，但缺點在於難以利用高層信息再發掘底層特徵；

2）DenseNet 每一層都重新在之前所有層的輸出中重新提取有用信息，可以有效地利用高層信息再次發掘底層新特徵，但其卻存在特徵上的冗餘。

雙通路網路 DPN：結合殘差網路和 Densenet 兩者優點

那麼，一個很自然的想法就是結合這兩類網路拓補結構，實現優缺點互補。於是，文章提出了一類全新的雙通道網路結構：Dual Path Network（DPNs）。

「超越200層ResNet」顏水成團隊 CVPR 新架構，提速300%

DPN 具體網路結構

需要注意的是，與 Residual Network Family 和 Densely Connected Network Family一樣，Dual Path Network Family 也將存在諸多變種，其內部鏈接並不局限於下圖中的「1x1->3x3->1x1」這種形式。

其核心思想是，將殘差通道和 densely connected path 相融合，實現優缺互補，其重點不在於細節部分是如何設定的。

「超越200層ResNet」顏水成團隊 CVPR 新架構，提速300%

上圖中，(e) 以 (d) 為例，展示了實際使用中的一種 DPN。簡單來講，就是基於現有的殘差網路，將最後的 1x1 輸出切分為兩路，一路加到 residual path 上去，一路併到 densely connected path 上去。（這裡請注意與 PyramidNets [2] 的本質區別。）

本文分別在「圖像分類」，「物體檢測」和「物體分割」三大任務上對 DPN 進行了驗證。在 ImageNet 1000 類分類任務中的性能如表 2 所示：

「超越200層ResNet」顏水成團隊 CVPR 新架構，提速300%

注意，這裡的FLOPs是理論值，實際效率不同於理論值。MXNet 在 concat layer 和 split layer 那裡還有待對 DPN 進行特殊優化，減少不必要的內存拷貝等操作。

但即便如此，在實測中： DPN-98 也顯著提高了訓練速度，降低內存佔用，並保持更高的準確率。即便是最佳單模型 DPN-131 也並沒有增加很多計算量和內存開銷，完全可以直接作為其他任務的基礎網路來使用。相較之前的最佳單模型 Very Deep PolyNet，DPN-131 實際訓練速度提升約 300%。

下圖給出了在單節點，4 塊 K80（K80 為雙GPU）下的實測結果：

「超越200層ResNet」顏水成團隊 CVPR 新架構，提速300%

DPN 在 PASCAL VOC 上的「物體檢測」和「物體分割」對比實驗結果如下表所示：

「超越200層ResNet」顏水成團隊 CVPR 新架構，提速300%

篇幅所限，感興趣的老師同學請查看原文。

總結

構建高性能、低資源佔用的網路結構一直是深度學習里一個重要的研究方向。正如殘差網路 (ResNet) 所展現的，一個有效的網路拓補結構，不僅能全面提高「圖像識別」任務中準確性，更能通過直接替換底層網路的方式受益「圖像生成」、「檢測」、「分割」、「美化」等等諸多應用。

在 DPN 這篇文章中，作者分析探討了現在最受歡迎的兩種網路結構，並提出了其獨特的見解：認為 ResNet 是 DenseNet 在參數跨層共享時的特例。基於這一結論，作者進一步提出了一類高性能、低資源佔用的全新網路拓補結構 Dual Path Networks，DPN 有效地融合了現有網路，實現了優勢互補，其性能在「圖像識別」、「圖像檢測」和「圖像分割」這三大任務中均得到了驗證，各項指標得到了顯著提升。相信近期將能在更多的工作和報道中看到雙通道網路的身影。

參考文獻：

[1] https://arxiv.org/abs/1608.06993

[2] https://arxiv.org/abs/1610.02915

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※顏水成團隊 CVPR 新架構，提速300％
※震撼！這些專業級攝影作品竟然出自谷歌神經網路之手！
※人腦神經網路多達11維，歐洲藍腦計劃揭示「從未想像過的世界」
※AITOP10華大基因上市大漲44％，CMU校長投奔南洋理工

TAG:新智元 |

您可能感興趣

※AMD新推Zen架構速龍220GE/240GE：功耗僅35W
※7nm新架構 AMD Ryzen 7 3700X圖賞
※淺析ARM全新Cortex A76架構：2.4GHz便可幹掉驍龍845
※7nm ZEN2架構AMD R7 3700U曝光：4核8線程
※AMD Ryzen 7 3700U首次曝光：要換12nm Zen＋架構？
※NVIDIA GTX 2070/2080顯卡意外現身：安培架構？
※AMD最新Ryzen CPU！7nm Zen 2架構12核24線程！
※NVIDIA Quadro P1000 4GB 新架構5K顯卡設計顯卡現貨
※AMD速龍300系列曝光：12nm工藝加Zen+架構
※華為海思Hi1620晶元發布在即 7nm製程ARM架構最高可達3.0GHz
※比奔騰G4560更好的選擇，速龍X2 200G，銳龍架構2C4T+vega核顯
※Intel公布六代全新CPU架構！7-Zip提升達75％
※英偉達或在GTC 2019上公布7nm的Ampere架構
※ARM發布Cortex-A76處理器架構：7nm/3GHz，性能提升35％
※NVIDIA最快7月推出GTX 1180 FE：採用Turing架構
※Intel一口氣公布六代全新CPU架構！7-Zip提升達75%
※AMD將推出Ryzen 3000系列16核處理器基於Zen 2架構和7nm工藝
※Linux 4.21優化Zen 2架構
※台北電腦展：Ryzen 5 3400G現身七彩虹展台，採用12nm Zen+架構
※16核心100W功耗！AMD Zen架構無敵了 Intel汗顏