當前位置:
首頁 > 知識 > 解讀北大提出的期望最大化注意力網路EMANet

解讀北大提出的期望最大化注意力網路EMANet

機器之心專欄

作者:李夏

ICCV 2019 將在10月27於韓國首爾舉行,本文作者介紹了一篇Oral論文,它利用EM 演算法優化注意力機制,並在語義分割等任務上獲得更好的效果。

本文介紹筆者被 ICCV 2019 接受為 Oral 的論文 Expectation-Maximization Attention Networks for Semantic Segmentation[1]。論文作者為:李夏、鍾之聲、吳建龍、楊一博、林宙辰、劉宏。

背景介紹

語義分割是計算機視覺領域的一項基礎任務,它的目標是為每個像素預測類別標籤。由於類別多樣繁雜,且類間表徵相似度大,語義分割要求模型具有強大的區分能力。近年來,基於全卷積網路(FCN[2])的一系列研究,在該任務上取得了卓越的成績。

這些語義分割網路,由骨幹網路和語義分割頭組成。全卷積網路受制於較小的有效感知域,無法充分捕獲長距離信息。為彌補這一缺陷,諸多工作提出提出了高效的多尺度上下文融合模塊,例如全局池化層、Deeplab[3] 的空洞空間卷積池化金字塔、PSPNet[4] 的金字塔池化模塊等。

近年來,自注意力機制在自然語言處理領域取得卓越成果。Nonlocal[5] 被提出後,在計算機視覺領域也受到了廣泛的關注,並被一系列文章證明了在語義分割中的有效性。它使得每個像素可以充分捕獲全局信息。然而,自注意力機制需要生成一個巨大的注意力圖,其空間複雜度和時間複雜度巨大。其瓶頸在於,每一個像素的注意力圖都需要對全圖計算。

本文所提出的期望最大化注意力機制(EMA),摒棄了在全圖上計算注意力圖的流程,轉而通過期望最大化(EM)演算法迭代出一組緊湊的基,在這組基上運行注意力機制,從而大大降低了複雜度。其中,E 步更新注意力圖,M 步更新這組基。E、M 交替執行,收斂之後用來重建特徵圖。本文把這一機制嵌入網路中,構造出輕量且易實現的 EMA Unit。其作為語義分割頭,在多個數據集上取得了較高的精度。

期望最大化注意力

前提知識

期望最大化演算法

期望最大化(EM)演算法旨在為隱變數模型尋找最大似然解。對於觀測數據 X=,每一個數據點 x_i 都對應隱變數 z_i。我們把 稱為完整數據,其似然函數為 ln p(X, Z|θ),θ 是模型的參數。

E 步根據當前參數θ^old 計算隱變數 Z 的後驗分布,並以之尋找完整數據的似然 Q(θ, θ^old):

M 步通過最大化似然函數來更新參數得到θ^new:

EM 演算法被證明會收斂到局部最大值處,且迭代過程完整數據似然值單調遞增。

高斯混合模型(GMM)是 EM 演算法的一個範例,它把數據用多個高斯分布擬合。其 θ_k 即為第 k 個高斯分布的參數μ_k, Σ_k,隱變數 z_nk 為第 k 個高斯分布對第 n 數據點的「責任」。E 步更新「責任」,M 步更新高斯參數。在實際應用中,Σ_k 經常被簡化為 I。

非局部網路

非局部網路(Nonlocal[5])率先將自注意力機制使用在計算機視覺任務中。其核心運算元是:

其中 f(., .) 表示廣義的核函數,C(x) 是歸一化係數。它將第 i 個像素的特徵 x_i 更新為其他所有像素特徵經過 g 變換之後的加權平均 y_i,權重通過歸一化後的核函數計算,表徵兩個像素之間的相關度。這裡 1

期望最大化注意力機制

期望最大化注意力機制由 A_E, A_M, A_R 三部分組成,前兩者分別對應 EM 演算法的 E 步和 M 步。假定輸入的特徵圖為,基初始值為,A_E 估計隱變數,即每個基對像素的權責。具體地,第 k 個基對第 n 個像素的權責可以計算為:

在這裡,內核 K(a, b) 可以有多種選擇。我們選擇的形式。在實現中,可以用如下的方式實現:

其中,λ 作為超參數來控制 Z 的分布。

A_M 步更新基 μ。為了保證μ和 X 處在同一表徵空間內,此處μ被計算作 X 的加權平均。具體地,第 k 個基被更新為:

值得注意的是,如果λ趨向於無窮,則公式 (5) 中, 會變成一組 one-hot 編碼。在這種情形下,每個像素僅由一個基負責,而基被更新為其所負責的像素的均值,這便是標準的 K-means 演算法。

A_E 和 A_M 交替執行 T 步。此後,近似收斂的μ和 Z 便可以被用來對 X 進行重估計得 X tilde:

X tilde 相比於 X,具有低秩的特性。從下圖中可看出,其在保持類間差異的同時,類別內部差異得到縮小。從圖像角度來看,起到了類似保邊濾波的效果。

綜上,EMA 在獲得低秩重構特性的同時,將複雜度從 Nonlocal 的 O(N^2) 降低至 O(NKT)。實驗中,EMA 僅需 3 步就可達到近似收斂,因此 T 作為一個小常數,可以被省去。至此,EMA 複雜度僅為 O(NK)。考慮到 k 遠小於 N,其複雜度得到顯著的降低。

期望最大化注意力模塊

EMA Unit

期望最大化注意力模塊(EMAU)的結構如上圖所示。除了核心的 EMA 之外,兩個 1×1 卷積分別放置於 EMA 前後。前者將輸入的值域從 R 映射到 R;後者將 X tilde 映射到 X 的殘差空間。囊括進兩個卷積的額外負荷,EMAU 的 FLOPs 僅相當於同樣輸入輸出大小時 3×3 卷積的 1/3,參數量僅為 2C^2 KC。

對於 EM 演算法而言,參數的初始化會影響到最終收斂時的效果。上一節中討論了 EMA 如何在單張圖像的特徵圖上進行迭代運算。而對於深度網路訓練過程中的大量圖片,在逐個批次訓練的同時,EM 參數的迭代初值理應得到不斷優化。本文中,迭代初值的維護參考 BN 中 running_mean 和 running_std 的滑動平均更新方式,即:

其中,α∈[0,1] 表示動量;表示在一個 mini-batch 上的平均。

此外,EMA 的迭代過程可以展開為一個 RNN,其反向傳播也會面臨梯度爆炸或消失等問題。此外,公式 (8) 也要求和的差異不宜過大,不然初值的更新也會出現不穩定。RNN 中採取 LayerNorm(LN)來進行歸一化是一個合理的選擇。但在 EMA 中,LN 會改變基的方向,進而影響其語義。因為,本文選擇 L2Norm 來對基進行歸一化。這樣,的更新軌跡便處在一個高維球面上。

此處,我們可以考慮下 EMA 和 A2Net[6] 的關聯。A2Net 的核心運算元如下:

其中 θ, φ, ρ 代表三個 1×1 卷積,它們的參數分別為 W_θ、W_φ和 W_ρ。如果我們將θ和φ的參數共享,並將 W_θ和 W_φ記作 μ。那麼,softmax(θ(X, W_θ)) 和公式 (5) 無異;而 [.] 內則在更新 μ,即相當於 A_E 和 A_M 迭代一次。因此,A2-Block 可以看作 EMAU 的特殊例子,它只迭代一次 EM,且 μ 由反向傳播來更新。而 EMAU 迭代 T 步,用滑動平均來更新 μ。

實驗

首先是在 PASCOL VOC 上的消融實驗。這裡對比了不同的 μ 更新方法和歸一化方法的影響。

可以清楚地看到,EMA 使用滑動均值(Moving average)和 L2Norm 最為有效。作為對比,Nonlocal 和 A2Net 的模塊作為語義分割頭,在同樣設置下分別達到 77.78% 和 77.34% 的分數,而 EMANet 僅迭代一次時分數為 77.34%,三者無顯著差異,符合上文對 Nonlocal 和 A2Net 的分析和對比。接下來是不同訓練和測試中迭代次數 T 的對比實驗。

可以發現,EMA 僅需三步即可近似收斂(精度不再增益)。而隨著訓練時迭代次數的繼續增長,精度有所下降,這是由 EMA 的 RNN 特性引起的。

接下來,是 EMANet 和 DeeplabV3[3]、DeeplabV3 [7] 和 PSANet[8] 的詳細對比。

可以發現,EMANet 無論在精度還是在計算代價上,都顯著高於表中幾個經典演算法。

在 VOC test server 上,EMANet 在所有使用 ResNet-101 的演算法中,取得了最高的分數。此外,在 PASCAL Context 和 COCO stuff 數據集上也表現卓越。

最後是學習到的注意力圖的可視化。如下圖,I,j,k,l 表示四個隨機選擇的基的下標。右邊四列繪出的是它們各自對應的注意力圖。可以看到,不同的基會收斂到一些特定的語義概念。

參考

[1]Li, Xia, Zhong, Zhisheng, et al. " Expectation Maximization Attention Networks for Semantic Segmentation." Proceedings of the IEEE conference on computer vision. 2019.

[2]Long, Jonathan, Evan Shelhamer, and Trevor Darrell. "Fully convolutional networks for semantic segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.

[3]Chen, Liang-Chieh, et al. "Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs." IEEE transactions on pattern analysis and machine intelligence 40.4 (2017): 834-848.

[4]Zhao, Hengshuang, et al. "Pyramid scene parsing network." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

[5]Wang, Xiaolong, et al. "Non-local neural networks." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

[6]Chen, Yunpeng, et al. "A^ 2-Nets: Double Attention Networks." Advances in Neural Information Processing Systems. 2018.

[7]Chen, Liang-Chieh, et al. "Encoder-decoder with atrous separable convolution for semantic image segmentation." Proceedings of the European conference on computer vision (ECCV). 2018.

[8]Zhao, Hengshuang, et al. "Psanet: Point-wise spatial attention network for scene parsing." Proceedings of the European Conference on Computer Vision (ECCV). 2018.

本文為機器之心專欄,轉載請聯繫本原作者獲得授權。

------------------------------------------------

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

共話數據智能新經濟,首屆市北GMIS2019全球數據智能峰會隆重開幕
現實版「柯南變聲器」來了,搜狗變聲讓你聲音隨心變

TAG:機器之心 |