DeepLabv1 & DeepLabv2 - 空洞卷積（語義分割）

新聞 03-26

本文為 AI 研習社編譯的技術博客，原標題：
Review: DeepLabv1 & DeepLabv2 — Atrous Convolution (Semantic Segmentation)
作者 | Sik-Ho Tsang
翻譯 | 斯蒂芬·二狗子
校對 | 醬番梨審核 | 約翰遜·李加薪整理 | 立魚王

原文鏈接：
https://towardsdatascience.com/review-deeplabv1-deeplabv2-atrous-convolution-semantic-segmentation-b51c5fbde92d

在本文中，回顧了DeepLabv1和DeepLabv2網路，因為他們都使用帶孔卷積 Atrous Convolution和全連接的條件隨機場（Conditional Random Field，CRF），除了DeepLabv2有一個額外的技術叫做空間金字塔池化Atous Spatial Pyramid Pooling（ASPP），這是DeepLabv2與DeepLabv1的主要區別。（當然，還有其他差別，例如：DeepLabv2使用ResNet和VGGNet進行實驗，但DeepLabv1僅使用VGGNet。）

DeepLab 模型

上圖是DeepLab模型架構。首先，輸入圖像通過網路中的atrous卷積和ASPP。然後，網路的輸出圖進行雙線性插值bilinearly interpolated，並通過完全連接的CRF來微調結果並獲得最終輸出。

DeepLabv1和DeepLabv2已經在2015 ICLR和2018 TPAMI上發布，在我寫這篇故事的時候分別引用了400和2000。

本文涉及的內容：

帶孔卷積
空間金字塔池化
全連接的條件隨機場
實驗結果

1.Atrous卷積

「Atrous」這個詞確實來自法語「àtrous」意思洞。因此Atrous conv.也被稱為「空洞卷積」。一些論文也稱之為"dilated convolution"。它通常用於小波變換，現在它被應用於卷積中以進行深度學習。

下面是atrous卷積的表達式：

1維的帶孔卷積（r > 1：atrous卷積，r = 1：標準卷積）

當r = 1時，它是我們通常使用的標準卷積。
當r > 1時，它是一個帶孔的卷積，r是在卷積過程中對輸入樣本進行採樣的步幅。

下圖說明這一點

DeepLabv1 & DeepLabv2 - 空洞卷積（語義分割）

標準卷積空洞卷積（底部）

atrous卷積的想法很簡單。在上圖的頂部是標準卷積。

在圖的底部，它是一個空洞卷積。我們可以看到，當rate = 2時，輸入信號被交替採樣。首先，pad = 2 意味著我們在左側和右側填充2個零。然後，在 rate = 2的情況下，我們有每2個輸入就對輸入信號進行採樣以進行卷積。因此，在輸出端，我們將有5個輸出，這使得輸出的特徵圖增大。如果我們還記得FCN一文中，一系列的卷積和池化會使輸出特徵圖非常小，因此最後需要32倍的上採樣，這是有些放大過度的上採樣。

此外，atrous卷積使我們擴大卷積核filter的視野以包含更大的感受域信息。同時，它提供了一種有效的機制來控制感受野的大小，並找到精確定位（小視野）和通過前後信息修復（大視場）細節之間的最佳平衡。

在DeepLab中，使用VGG-16或ResNet-101，最後一個池化（pool5）或卷積conv5_1的步幅分別設置為1，以避免信號被過度抽取。並且使用rate=2的空洞卷積替換所有後續卷積層。這使得輸出變大很多。我們只需要進行8次上採樣即可對輸出要求的尺寸。並且雙線性插值對於8×上採樣具有相當好的性能。

2.帶孔空間金字塔池化（ASPP）

DeepLabv1 & DeepLabv2 - 空洞卷積（語義分割）

帶孔的空間金字塔池化（ASPP）

ASPP實際上是空間金字塔池的一個版本，其中的概念已經在SPPNet中描述。在ASPP中，在輸入特徵映射中應用不同速率的並行空洞卷積，並融合在一起。由於同一類的物體在圖像中可能有不同的比例，ASPP有助於考慮不同的物體比例，這可以提高準確性。

3.完全連接的條件隨機場（CRF）

完全連接的CRF在雙線性插值後應用於網路輸出上

DeepLabv1 & DeepLabv2 - 空洞卷積（語義分割）

全連接的CRF

x是像素的標籤分配。 P（xi）是像素i處的標籤分配概率。因此，第一項θi是對數概率。對於第二項，θij，它是一個濾波器。當xi != xj時，μ= 1。當xi = xj時，μ= 0。在括弧中，它是兩個內核的加權和。第一個核取決於像素值差和像素位置差，這是一種雙邊的filter。雙邊濾波器具有保留邊緣的特性。第二個內核僅取決於像素位置差異，這是一個高斯濾波器。那些σ和w，通過交叉驗證找到。迭代次數為10。

DeepLabv1 & DeepLabv2 - 空洞卷積（語義分割）