當前位置:
首頁 > 新聞 > 「超越200層ResNet」顏水成團隊 CVPR 新架構,提速300%

「超越200層ResNet」顏水成團隊 CVPR 新架構,提速300%

「超越200層ResNet」顏水成團隊 CVPR 新架構,提速300%

1 新智元原創

「超越200層ResNet」顏水成團隊 CVPR 新架構,提速300%

本文意在為您簡要解讀最近在 arXiv 上一篇最新的文章 《雙通道網路》(Dual Path Networks),原作者已經將源碼公開到了 GitHub。

在論文中,作者分析並證明了 ResNet 與 DenseNet 之間的重要聯繫:Densely Connected Network Family 里包含 Residual Network Family。作者分析了兩者各自的優缺點,並基於分析所得結論,提出了一類新的網路拓補結構:雙通道網路(Dual Path Network Family)。

「超越200層ResNet」顏水成團隊 CVPR 新架構,提速300%

論文地址:https://arxiv.org/pdf/1707.01629.pdf

ResNet 實際屬於 DenseNet

DenseNet 是由[1] 提出的一類不同於 ResNet 的網路結構。ResNet 將輸出與輸入相加,形成一個殘差結構;而 DenseNet 卻是將輸出與輸入相併聯——相併聯,相併聯(重要的事情說 3 遍),實現每一層都能直接得到之前所有層的輸出。

下圖中, (a/b) 展示了兩種網路。請注意兩者的區別,將 DenseNet 理解為一種有很多殘差連接的 ResNet 是非常錯誤的理解。

文中作者發現,Residual Networks 其實就是 Densely Connected Networks 的一種特例。這裡我們通過分析網路結構簡要證明下:

「超越200層ResNet」顏水成團隊 CVPR 新架構,提速300%

上圖中,假設實線箭頭代表一次變換(本例中指含激活函數的卷積),若 (b) 中綠色箭頭代表的函數相同,那麼我們就可以通過添加一個殘差通道(residual path)保留中間計算結果,將其化簡為 (c)。而 (c) 的形式恰恰就是一個殘差網路的形式(棕色點線)。

也就是說,一個 DenseNet 可以通過共享參數的方式,退化為 ResNet。ResNet 實際上就是 DenseNet 在跨層參數共享時候的特例

本文認為:

1)ResNet 通過這種跨層參數共享和保留中間特徵的方式,可以有效的降低特徵上冗餘度,重複利用已有特徵,但缺點在於難以利用高層信息再發掘底層特徵;

2)DenseNet 每一層都重新在之前所有層的輸出中重新提取有用信息,可以有效地利用高層信息再次發掘底層新特徵,但其卻存在特徵上的冗餘。

雙通路網路 DPN:結合殘差網路和 Densenet 兩者優點

那麼,一個很自然的想法就是結合這兩類網路拓補結構,實現優缺點互補。於是,文章提出了一類全新的雙通道網路結構:Dual Path Network(DPNs)。

「超越200層ResNet」顏水成團隊 CVPR 新架構,提速300%

DPN 具體網路結構

需要注意的是,與 Residual Network Family 和 Densely Connected Network Family一樣,Dual Path Network Family 也將存在諸多變種,其內部鏈接並不局限於下圖中的 「1x1->3x3->1x1」 這種形式。

其核心思想是,將殘差通道和 densely connected path 相融合,實現優缺互補,其重點不在於細節部分是如何設定的。

「超越200層ResNet」顏水成團隊 CVPR 新架構,提速300%

上圖中,(e) 以 (d) 為例,展示了實際使用中的一種 DPN。簡單來講,就是基於現有的殘差網路,將最後的 1x1 輸出切分為兩路,一路加到 residual path 上去,一路併到 densely connected path 上去。(這裡請注意與 PyramidNets [2] 的本質區別。)

本文分別在「圖像分類」,「物體檢測」和「物體分割」三大任務上對 DPN 進行了驗證。在 ImageNet 1000 類分類任務中的性能如表 2 所示:

「超越200層ResNet」顏水成團隊 CVPR 新架構,提速300%

注意,這裡的FLOPs是理論值,實際效率不同於理論值。MXNet 在 concat layer 和 split layer 那裡還有待對 DPN 進行特殊優化,減少不必要的內存拷貝等操作。

但即便如此,在實測中: DPN-98 也顯著提高了訓練速度,降低內存佔用,並保持更高的準確率。即便是最佳單模型 DPN-131 也並沒有增加很多計算量和內存開銷,完全可以直接作為其他任務的基礎網路來使用。相較之前的最佳單模型 Very Deep PolyNet,DPN-131 實際訓練速度提升約 300%。

下圖給出了在單節點,4 塊 K80(K80 為雙GPU)下的實測結果:

「超越200層ResNet」顏水成團隊 CVPR 新架構,提速300%

DPN 在 PASCAL VOC 上的「物體檢測」和「物體分割」對比實驗結果如下表所示:

「超越200層ResNet」顏水成團隊 CVPR 新架構,提速300%

篇幅所限,感興趣的老師同學請查看原文。

總結

構建高性能、低資源佔用的網路結構一直是深度學習里一個重要的研究方向。正如殘差網路 (ResNet) 所展現的,一個有效的網路拓補結構,不僅能全面提高「圖像識別」任務中準確性,更能通過直接替換底層網路的方式受益「圖像生成」、「檢測」、「分割」、「美化」等等諸多應用。

在 DPN 這篇文章中,作者分析探討了現在最受歡迎的兩種網路結構,並提出了其獨特的見解:認為 ResNet 是 DenseNet 在參數跨層共享時的特例。基於這一結論,作者進一步提出了一類高性能、低資源佔用的全新網路拓補結構 Dual Path Networks,DPN 有效地融合了現有網路,實現了優勢互補,其性能在「圖像識別」、「圖像檢測」和「圖像分割」這三大任務中均得到了驗證,各項指標得到了顯著提升。相信近期將能在更多的工作和報道中看到雙通道網路的身影。

參考文獻:

[1] https://arxiv.org/abs/1608.06993

[2] https://arxiv.org/abs/1610.02915

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

顏水成團隊 CVPR 新架構,提速300%
震撼!這些專業級攝影作品竟然出自谷歌神經網路之手!
人腦神經網路多達11維,歐洲藍腦計劃揭示「從未想像過的世界」
AITOP10華大基因上市大漲44%,CMU校長投奔南洋理工

TAG:新智元 |

您可能感興趣

AMD新推Zen架構速龍220GE/240GE:功耗僅35W
7nm新架構 AMD Ryzen 7 3700X圖賞
淺析ARM全新Cortex A76架構:2.4GHz便可幹掉驍龍845
7nm ZEN2架構AMD R7 3700U曝光:4核8線程
AMD Ryzen 7 3700U首次曝光:要換12nm Zen+架構?
NVIDIA GTX 2070/2080顯卡意外現身:安培架構?
AMD最新Ryzen CPU!7nm Zen 2架構12核24線程!
NVIDIA Quadro P1000 4GB 新架構5K顯卡 設計顯卡 現貨
AMD速龍300系列曝光:12nm工藝加Zen+架構
華為海思Hi1620晶元發布在即 7nm製程ARM架構最高可達3.0GHz
比奔騰G4560更好的選擇,速龍X2 200G,銳龍架構2C4T+vega核顯
Intel公布六代全新CPU架構!7-Zip提升達75%
英偉達或在GTC 2019上公布7nm的Ampere架構
ARM發布Cortex-A76處理器架構:7nm/3GHz,性能提升35%
NVIDIA最快7月推出GTX 1180 FE:採用Turing架構
Intel一口氣公布六代全新CPU架構!7-Zip提升達75%
AMD將推出Ryzen 3000系列16核處理器 基於Zen 2架構和7nm工藝
Linux 4.21優化Zen 2架構
台北電腦展:Ryzen 5 3400G現身七彩虹展台,採用12nm Zen+架構
16核心100W功耗!AMD Zen架構無敵了 Intel汗顏