DilatedNet - 擴張卷積（語義分割）

新聞 04-03

本文為 AI 研習社編譯的技術博客，原標題：
Review: DilatedNet — Dilated Convolution (Semantic Segmentation)
作者 | Sik-Ho Tsang
翻譯 | 斯蒂芬·二狗子
校對 | 醬番梨審核 | 約翰遜·李加薪整理 | 立魚王

原文鏈接：
https://towardsdatascience.com/review-dilated-convolution-semantic-segmentation-9d5a5bd768f5
註：本文的相關鏈接請訪問文末【閱讀原文】

這次，對來自普林斯頓大學和英特爾實驗室的Dilated Convolution一文進行了簡要回顧。擴張卷積的思想來自小波分解。它也被稱為「atrous convolution」，「algorithmeàtrous」和「hole algorithm」。因此，如果我們能夠將它們轉變為深度學習框架，那麼可以認為過去的任何想法仍然是有用的。

當我寫這篇故事時，這個擴張卷積已經在2016年ICLR上發表，引用超過1000次。（SH Tsang @ Medium）

涉及的內容

擴張卷積
多尺度上下文聚合（上下文模塊）
結果

1.擴張卷積

標準卷積（左），擴張卷積（右）

左邊是標準卷積。正確的是擴張卷積。我們可以看到，在求和時，s+lt=p 我們將在卷積期間跳過一些點。

當 l = 1時，它是標準卷積。

當 l > 1時，它是擴張的卷積。

DilatedNet - 擴張卷積（語義分割）

打開今日頭條，查看更多圖片

標準卷積（l = 1）

DilatedNet - 擴張卷積（語義分割）

擴張卷積（l = 2）

上面給出了當l = 2 時擴張卷積的一個例子。我們可以看到，與標準卷積相比，感受野更大。

DilatedNet - 擴張卷積（語義分割）

l = 1（左），l = 2（中），l = 4（右）

上圖顯示了有關感受野的三個示例。

2.多尺度的上下文聚合（上下文模塊）

基於擴張卷積來構建的上下文模塊Context Module，如下所示：

DilatedNet - 擴張卷積（語義分割）

基礎的上下文模塊，和大的上下文模塊

如圖，context module有7層，這些層採用不同擴張率的3×3 kernel size 的擴張卷積，擴張的率分別為1,1,2,4,8,16,1。

最後一層用了一個1×1的卷積，將通道數映射為與輸入通道數相同大小。因此，輸入和輸出具有相同數量的通道。它可以插入到不同類型的卷積神經網路中。

基本上下文模塊basic context module在整個模塊中僅有1個通道（1C,1 channel），而大上下文模塊large context module從1C 作為輸入到第7層的32C的通道數。

3.結果3.1. PASCAL VOC 2012

VGG-16 作為一個前端模塊（預訓練）。刪除了最後的兩個池化層和striding 層，並將context上下文模塊插入其中。中間的特徵圖的padding也被移除了。作者只是對輸入的特徵圖加了一個寬度為33的padding。Zero Padding (填充0)和 reflection padding（使用輸入邊界的反射填充，一種padding方式）在我們的實驗中得出了類似的結果。此外，使用輸入和輸出的通道channels的數量的權重來初始化的方式代替標準隨機初始化模型參數。

DilatedNet - 擴張卷積（語義分割）