當前位置:
首頁 > 新聞 > DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)

DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)

本文為 AI 研習社編譯的技術博客,原標題 :

Review: DeepLabv1 & DeepLabv2 — Atrous Convolution (Semantic Segmentation)

作者 | Sik-Ho Tsang

翻譯 | 斯蒂芬·二狗子

校對 | 醬番梨 審核 | 約翰遜·李加薪 整理 | 立魚王

原文鏈接:

https://towardsdatascience.com/review-deeplabv1-deeplabv2-atrous-convolution-semantic-segmentation-b51c5fbde92d

在本文中,回顧了DeepLabv1和DeepLabv2網路,因為他們都使用帶孔卷積 Atrous Convolution和全連接的條件隨機場(Conditional Random Field,CRF),除了DeepLabv2有一個額外的技術叫做空間金字塔池化Atous Spatial Pyramid Pooling(ASPP),這是DeepLabv2與DeepLabv1的主要區別。 (當然,還有其他差別,例如:DeepLabv2使用ResNet和VGGNet進行實驗,但DeepLabv1僅使用VGGNet。)

DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)

DeepLab 模型

上圖是DeepLab模型架構。首先,輸入圖像通過網路中的atrous卷積和ASPP。然後,網路的輸出圖進行雙線性插值bilinearly interpolated,並通過完全連接的CRF來微調結果並獲得最終輸出。

DeepLabv1和DeepLabv2已經在2015 ICLR和2018 TPAMI上發布,在我寫這篇故事的時候分別引用了400和2000。

本文涉及的內容:

  1. 帶孔卷積

  2. 空間金字塔池化

  3. 全連接的條件隨機場

  4. 實驗結果

1.Atrous卷積

「Atrous」這個詞確實來自法語「àtrous」意思洞。因此Atrous conv.也被稱為「空洞卷積」。一些論文也稱之為"dilated convolution"。它通常用於小波變換,現在它被應用於卷積中以進行深度學習。

下面是atrous卷積的表達式:

1維的帶孔卷積(r > 1:atrous卷積,r = 1:標準卷積)

  • 當r = 1時,它是我們通常使用的標準卷積。

  • 當r > 1時,它是一個帶孔的卷積,r是在卷積過程中對輸入樣本進行採樣的步幅。

下圖說明這一點

DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)

標準卷積空洞卷積(底部)

atrous卷積的想法很簡單。在上圖的頂部是標準卷積。

在圖的底部,它是一個空洞卷積。我們可以看到,當rate = 2時,輸入信號被交替採樣。首先,pad = 2 意味著我們在左側和右側填充2個零。然後,在 rate = 2的情況下,我們有每2個輸入就對輸入信號進行採樣以進行卷積。因此,在輸出端,我們將有5個輸出,這使得輸出的特徵圖增大。如果我們還記得FCN一文中,一系列的卷積和池化會使輸出特徵圖非常小,因此最後需要32倍的上採樣,這是有些放大過度的上採樣。

此外,atrous卷積使我們擴大卷積核filter的視野以包含更大的感受域信息。同時,它提供了一種有效的機制來控制感受野的大小,並找到精確定位(小視野)和通過前後信息修復(大視場)細節之間的最佳平衡。

在DeepLab中,使用VGG-16或ResNet-101,最後一個池化(pool5)或卷積conv5_1的步幅分別設置為1,以避免信號被過度抽取。並且使用rate=2的空洞卷積替換所有後續卷積層。這使得輸出變大很多。我們只需要進行8次上採樣即可對輸出要求的尺寸。並且雙線性插值對於8×上採樣具有相當好的性能。

2.帶孔空間金字塔池化(ASPP)

DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)

帶孔的空間金字塔池化(ASPP)

ASPP實際上是空間金字塔池的一個版本,其中的概念已經在SPPNet中描述。在ASPP中,在輸入特徵映射中應用不同速率的並行空洞卷積,並融合在一起。由於同一類的物體在圖像中可能有不同的比例,ASPP有助於考慮不同的物體比例,這可以提高準確性。

3.完全連接的條件隨機場(CRF)

完全連接的CRF在雙線性插值後應用於網路輸出上

DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)

全連接的CRF

x是像素的標籤分配。 P(xi)是像素i處的標籤分配概率。因此,第一項θi是對數概率。對於第二項,θij,它是一個濾波器。當xi != xj時,μ= 1。當xi = xj時,μ= 0。在括弧中,它是兩個內核的加權和。第一個核取決於像素值差和像素位置差,這是一種雙邊的filter。雙邊濾波器具有保留邊緣的特性。第二個內核僅取決於像素位置差異,這是一個高斯濾波器。那些σ和w,通過交叉驗證找到。迭代次數為10。

DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)

上:得分圖(softmax函數前的輸入),下圖:置信圖(softmax函數的輸出)

通過10倍的CRF,飛機周圍不同顏色的小區域變得平滑起來。

但是,CRF是一個後階段的處理過程,它使DeepLabv1和DeepLabv2變為不是端到端的學習框架。並且它是不在DeepLabv3和DeepLabv3 +中使用。

4.結果

4.1 實驗驗證

DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)

DeepLab-LargeFOV(左:即僅單個atrous conv),DeepLab-ASPP(右,即ASPP)

DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)

在PASCAL VOC 2012驗證集中使用ResNet-101的每個模型組件的結果

  • 簡單使用ResNet-101: 68.72%

  • MSC: 多尺度輸入

  • COCO: 由COCO數據集預訓練的模型

  • Aug: 通過隨機縮放(從0.5到1.5)輸入圖像進行數據增強

  • LargeFOV: 使用一次空洞卷積上採樣的DeepLab模型

  • ASPP: 使用並行的空洞卷積的DeepLab模型

  • CRF: 全連接的條件隨機場做最後處理

4.2 與最先進的方法對比

DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)

PASCAL VOC 2012測試集(最左側)PASCAL-Context(左二)PASCAL-Person-Part(右二)Cityscape(最右側)

如上所述測

4.3 定性的結果

DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)

結果: PASCAL-Context數據

DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)

結果: Cityscape數據

但DeepLab也有一些失敗的例子,其中自行車和椅子由多個細小的部分組成,如自行車和椅腿的部分:

DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)

失敗的例子

希望將來能夠寫篇關於DeepLabv3和DeepLabv3 +的博文。

參考文獻

[2015 ICLR] [DeepLabv1]Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs

[2018 TPAMI] [DeepLabv2]DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

我相關的文章

[SPPNet] [VGGNet] [ResNet] [FCN]

想要繼續查看該篇文章相關鏈接和參考文獻?雷鋒網雷鋒網雷鋒網

點擊【DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)】或長按下方地址訪問:

https://ai.yanxishe.com/page/TextTranslation/1531

Python中文書籍大集合

100本Python中文電子書,6份源代碼,Python從入門到出家,一條龍服務。

包含Python基礎、進階、爬蟲、演算法實現、深度學習、TensorFlow、NLP等等

友情提示:文件大小為2.89GB,慎用流量下載,可以先收藏喲~~!

點擊鏈接即可獲取:https://ai.yanxishe.com/page/resourceDetail/676

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

U-Net 和 ResNet:長短跳躍連接的重要性(生物醫學圖像分割)
突破!引用率前10%AI論文中國佔比高達 26.5 %,明年有望超越美國

TAG:雷鋒網 |