南開大學提出目標檢測新Backbone網路模塊：Res2Net

科技 04-06

「2019 Python開發者日」，購票請掃碼諮詢

作者 | 高尚華、程明明等（南開大學）

譯者 | 劉暢

編輯 | Jane

出品 | AI科技大本營（id：rgznai100）

【導讀】去年，AI科技大本營為大家報道過南開大學媒體計算實驗室在邊緣檢測和圖像過分割的工作成果，不僅刷新了精度記錄，演算法也已經開源。今天要為大家再介紹該實驗室的最新工作——Res2Net，一種在目標檢測任務中新的 Backbone 網路模塊。

ResNet 大家都很熟悉了，由何愷明等人於 2015 年提出，其強大的表徵能力，讓很多計算機視覺任務的性能得到了極大的提升。而南開大學的這項工作提出的新卷積網路構造方式，在多個視覺任務的基準數據集上（CIFAR10，ImageNet），與 baseline 模型進行了對比，優於現有的 SOTA 方法，更多的消融實驗結果中也證明了作者方法的優勢之處。此外，鑒於 Res2Net 已經在幾個具有代表性的計算機視覺任務體現出了優越性，作者認為網路的多尺度表徵能力是非常重要的。

下面，AI科技大本營就為大家介紹一下這項工作，大家可以深入研讀後進行嘗試~

摘要

在許多視覺任務中，多尺度的表示特徵是非常重要的。最新的研究在不斷的提升著 backbone 網路的多尺度表達能力，在多個任務上提高了演算法性能。然而，大多數現有的深度學習方法是通過不同層的方式來表達多尺度特徵。作者提出了一種新的卷積網路構造方式 Res2Net，通過在單個殘差塊裡面構建層次化的連接實現。Res2Net 是在粒度級別上來表示多尺度特徵並且增加了每層網路的感受野範圍。它可以無縫插入現有的ResNet,ResNeXt等網路結構。並且在多個視覺任務的基準數據集上，與 baseline 模型進行了對比，發現它優於現有的 SOTA 方法。更多的消融實驗結果證明了作者方法的優勢之處。

引言

在多個視覺任務中，如圖像分類，目標檢測，動作識別，語義分割等，設計一個好的多尺度特徵是非常重要的。有以下三點原因，第一，如上圖所示，在一張圖片裡面，同一目標可能有不同的大小，比如圖上的沙發。第二，待檢測目標的上下文信息可能比它本身占的區域更多，例如，我們需要使用大桌子作為上下文信息來判斷放在上面的是杯子還是筆筒。第三，從不同尺度的感知信息來理解如細粒度分類和語義分割的任務是非常重要的。

因此，多尺度的特徵在傳統方法和深度學習裡面都得到了廣泛應用。通常我們需要採用一個大感受野的特徵提取器來獲得不同尺度的特徵描述，而卷積神經網路通過一堆卷積層可以很自然的由粗到細多尺度的提取特徵。如何設計更高效的網路結構是提升卷積神經網路性能的關鍵。

作者提出了一種簡單有效的多尺度提取方法。與現有的增強單層網路多尺度表達能力的 CNNs 方法不同，它是在更細的粒度上提升了多尺度表徵能力。

接下來我們再來看看 Res2Net 的架構與體系結構等內容：

Res2Net

已有的許多工作都是採用的上圖（a）作為其 basic block，因此作者希望找到一種能保持計算量不增加，卻有更強多尺度特徵提取能力的結構來替代它。如上圖（b）所示，作者採用了更小的卷積組來替代 bottleneck block 裡面的 3x3 卷積。具體操作如下，首先將 1x1 卷積後的特徵圖均分為 s 個特徵圖子集。每個特徵圖子集的大小相同，但是通道數是輸入特徵圖的 1/s。對每一個特徵圖子集 X_i，有一個對應的 3x3 卷積K_i(), 假設 K_i() 的輸出是 y_i。接下來每個特徵圖子集 X_i 會加上 K_i-1() 的輸出，然後一起輸入進 K_i()。為了在增大 s 的值時減少參數量，作者省去了 X_1 的 3x3 網路。因此，輸出 y_i 可以用如下公式表示：

根據圖（b），可以發現每一個 X_j(j

實驗

作者提出的這個模塊可以融合到現有的 CNNs 方法裡面，如 ResNet, ResNeXt和DLA，為了公平的實驗，作者僅僅將裡面的模塊替換為 Res2Net，並在基準數據集（CIFAR10，ImageNet）上對 Res2Net 進行了評估。

以ImageNet 為例，作者進行了多個對比實驗，包括淺層和深層網路的對比，實驗結果都顯示基於 Res2Net 模塊的網路性能更好。作者還探索了尺度大小對性能的影響，如表格 3 所示，其中 w 代表濾波器的寬度，s 代表尺度。

在 ImageNet 數據集上，淺層和深層網路的實驗結果：

尺度大小對性能的影響：

在更多視覺任務上的實驗結果均顯示 Res2Net 模塊可以顯著的提升現有演算法的指標。

下圖是ResNet-50 和 Res2Net-50 在類激活映射的結果對比：

下圖是 ResNet-101 和 Res2Net-101 在語義分割任務上的（可視化的）結果對比：

下圖是 ResNet-50 和 Res2Net-50 在目標檢測任務上的結果對比：

下圖是ResNet-50 和 Res2Net-50 在實例分割任務，COCO 數據集上的 AP 和 AR 兩結果的對比：

結論

Res2Net 是一種簡潔有效的模塊，探索了 CNN 在更細粒度級別的多尺度表達能力。它揭示了 CNN 網路裡面除了深度，寬度等現有維度之外，還可以有新的維度「尺度」。Res2Net 模塊可以很容易地融合進 SOTA 的方法。在 CIFAR10 和 ImageNet 上圖像分類的結果表明，使用 Res2Net 模塊的網路比 ResNet，ResNeXt，DLA 等網路效果更好。鑒於Res2Net已經在幾個具有代表性的計算機視覺任務體現出了優越性，作者認為網路的多尺度表徵能力是非常重要的。

最後，放送一下論文地址：

https://arxiv.org/pdf/1904.01169.pdf

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI科技大本營 的精彩文章:

※小米半年來最大調整：成立技術委員會，雷軍稱技術事關生死存亡
※阿里雲凌晨大規模宕機，華北部分網站陷入癱瘓

TAG:AI科技大本營 |