DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)
本文為 AI 研習社編譯的技術博客,原標題 :
Review: DeepLabv1 & DeepLabv2 — Atrous Convolution (Semantic Segmentation)
作者 | Sik-Ho Tsang
翻譯 | 斯蒂芬·二狗子
校對 | 醬番梨 審核 | 約翰遜·李加薪 整理 | 立魚王
原文鏈接:
https://towardsdatascience.com/review-deeplabv1-deeplabv2-atrous-convolution-semantic-segmentation-b51c5fbde92d
在本文中,回顧了DeepLabv1和DeepLabv2網路,因為他們都使用帶孔卷積 Atrous Convolution和全連接的條件隨機場(Conditional Random Field,CRF),除了DeepLabv2有一個額外的技術叫做空間金字塔池化Atous Spatial Pyramid Pooling(ASPP),這是DeepLabv2與DeepLabv1的主要區別。 (當然,還有其他差別,例如:DeepLabv2使用ResNet和VGGNet進行實驗,但DeepLabv1僅使用VGGNet。)
DeepLab 模型
上圖是DeepLab模型架構。首先,輸入圖像通過網路中的atrous卷積和ASPP。然後,網路的輸出圖進行雙線性插值bilinearly interpolated,並通過完全連接的CRF來微調結果並獲得最終輸出。
DeepLabv1和DeepLabv2已經在2015 ICLR和2018 TPAMI上發布,在我寫這篇故事的時候分別引用了400和2000。
本文涉及的內容:
帶孔卷積
空間金字塔池化
全連接的條件隨機場
實驗結果
1.Atrous卷積
「Atrous」這個詞確實來自法語「àtrous」意思洞。因此Atrous conv.也被稱為「空洞卷積」。一些論文也稱之為"dilated convolution"。它通常用於小波變換,現在它被應用於卷積中以進行深度學習。
下面是atrous卷積的表達式:
1維的帶孔卷積(r > 1:atrous卷積,r = 1:標準卷積)
當r = 1時,它是我們通常使用的標準卷積。
當r > 1時,它是一個帶孔的卷積,r是在卷積過程中對輸入樣本進行採樣的步幅。
下圖說明這一點
標準卷積空洞卷積(底部)
atrous卷積的想法很簡單。在上圖的頂部是標準卷積。
在圖的底部,它是一個空洞卷積。我們可以看到,當rate = 2時,輸入信號被交替採樣。首先,pad = 2 意味著我們在左側和右側填充2個零。然後,在 rate = 2的情況下,我們有每2個輸入就對輸入信號進行採樣以進行卷積。因此,在輸出端,我們將有5個輸出,這使得輸出的特徵圖增大。如果我們還記得FCN一文中,一系列的卷積和池化會使輸出特徵圖非常小,因此最後需要32倍的上採樣,這是有些放大過度的上採樣。
此外,atrous卷積使我們擴大卷積核filter的視野以包含更大的感受域信息。同時,它提供了一種有效的機制來控制感受野的大小,並找到精確定位(小視野)和通過前後信息修復(大視場)細節之間的最佳平衡。
在DeepLab中,使用VGG-16或ResNet-101,最後一個池化(pool5)或卷積conv5_1的步幅分別設置為1,以避免信號被過度抽取。並且使用rate=2的空洞卷積替換所有後續卷積層。這使得輸出變大很多。我們只需要進行8次上採樣即可對輸出要求的尺寸。並且雙線性插值對於8×上採樣具有相當好的性能。
2.帶孔空間金字塔池化(ASPP)帶孔的空間金字塔池化(ASPP)
ASPP實際上是空間金字塔池的一個版本,其中的概念已經在SPPNet中描述。在ASPP中,在輸入特徵映射中應用不同速率的並行空洞卷積,並融合在一起。由於同一類的物體在圖像中可能有不同的比例,ASPP有助於考慮不同的物體比例,這可以提高準確性。
3.完全連接的條件隨機場(CRF)完全連接的CRF在雙線性插值後應用於網路輸出上
全連接的CRF
x是像素的標籤分配。 P(xi)是像素i處的標籤分配概率。因此,第一項θi是對數概率。對於第二項,θij,它是一個濾波器。當xi != xj時,μ= 1。當xi = xj時,μ= 0。在括弧中,它是兩個內核的加權和。第一個核取決於像素值差和像素位置差,這是一種雙邊的filter。雙邊濾波器具有保留邊緣的特性。第二個內核僅取決於像素位置差異,這是一個高斯濾波器。那些σ和w,通過交叉驗證找到。迭代次數為10。
上:得分圖(softmax函數前的輸入),下圖:置信圖(softmax函數的輸出)
通過10倍的CRF,飛機周圍不同顏色的小區域變得平滑起來。
但是,CRF是一個後階段的處理過程,它使DeepLabv1和DeepLabv2變為不是端到端的學習框架。並且它是不在DeepLabv3和DeepLabv3 +中使用。
4.結果4.1 實驗驗證
DeepLab-LargeFOV(左:即僅單個atrous conv),DeepLab-ASPP(右,即ASPP)
在PASCAL VOC 2012驗證集中使用ResNet-101的每個模型組件的結果
簡單使用ResNet-101: 68.72%
MSC: 多尺度輸入
COCO: 由COCO數據集預訓練的模型
Aug: 通過隨機縮放(從0.5到1.5)輸入圖像進行數據增強
LargeFOV: 使用一次空洞卷積上採樣的DeepLab模型
ASPP: 使用並行的空洞卷積的DeepLab模型
CRF: 全連接的條件隨機場做最後處理
4.2 與最先進的方法對比
PASCAL VOC 2012測試集(最左側)PASCAL-Context(左二)PASCAL-Person-Part(右二)Cityscape(最右側)
如上所述測
4.3 定性的結果
結果: PASCAL-Context數據
結果: Cityscape數據
但DeepLab也有一些失敗的例子,其中自行車和椅子由多個細小的部分組成,如自行車和椅腿的部分:
失敗的例子
希望將來能夠寫篇關於DeepLabv3和DeepLabv3 +的博文。
參考文獻
[2015 ICLR] [DeepLabv1]Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs
[2018 TPAMI] [DeepLabv2]DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
我相關的文章
[SPPNet] [VGGNet] [ResNet] [FCN]
想要繼續查看該篇文章相關鏈接和參考文獻?雷鋒網雷鋒網雷鋒網
點擊【DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)】或長按下方地址訪問:
https://ai.yanxishe.com/page/TextTranslation/1531
Python中文書籍大集合
100本Python中文電子書,6份源代碼,Python從入門到出家,一條龍服務。
包含Python基礎、進階、爬蟲、演算法實現、深度學習、TensorFlow、NLP等等
友情提示:文件大小為2.89GB,慎用流量下載,可以先收藏喲~~!
點擊鏈接即可獲取:https://ai.yanxishe.com/page/resourceDetail/676
※U-Net 和 ResNet:長短跳躍連接的重要性(生物醫學圖像分割)
※突破!引用率前10%AI論文中國佔比高達 26.5 %,明年有望超越美國
TAG:雷鋒網 |