當前位置:
首頁 > 最新 > 曠視科技提出ExFuse——優化解決語義分割特徵融合問題

曠視科技提出ExFuse——優化解決語義分割特徵融合問題

全球計算機視覺三大頂會之一 ECCV 2018 (European Conference on Computer Vision)即將於9月8 -14日在德國慕尼黑拉開帷幕。屆時,曠視首席科學家孫劍博士將帶領團隊遠赴盛會,助力計算機視覺技術的交流與落地。而在此之前,曠視科技將陸續推出 ECCV 2018 接受論文系列解讀。本文是第 2 篇解讀,一個優化解決語義分割特徵融合問題的新型框架——ExFuse。往期解讀請見文末。

論文名稱:ExFuse: Enhancing Feature Fusion for Semantic Segmentation

論文鏈接:https://arxiv.org/abs/1804.03821

目錄

導語

背景

設計思想

方法

低級特徵引入語義信息

卷積重排列

多層語義監督

高級語義嵌入

高級特徵嵌入空間信息

顯式通道內嵌空間信息

密集領域預測

實驗結果

結論

參考文獻

往期解讀

導語

計算機視覺領域有著三項最為基本的任務——分類,檢測和分割,其中分割是指從像素層面識別出一張圖像上所有物體的位置和分類,使得機器之眼對一張圖像達到精確和充分的感知,這也是後續圖像認知技術的重要一環。分割分為語義分割、實例分割和全景分割,其中語義分割最為基礎,它為圖像之中的每個像素做分類,而不涉及實例或背景的區分。

本文發現,當前語義分割方法直接融合高、低特徵並不奏效,繼而提出新架構 ExFuse,轉而在低級特徵引入語義信息,在高級特徵嵌入空間信息,其性能超越 DeepLabv3,在 PASCAL VOC 2012 分割任務中奪得當前最優。

這一底層突破將在分割技術的適用領域帶來新進展,比如自動駕駛,無人機,倉儲機器人,醫療影像,無人超市、地理信息系統等。比如,曠視科技基於這一自身原創技術,進一步提升和完善了手機影像產品線,在人體扣像、手機打光、背景虛化等具體應用中不斷提升用戶體驗,這也恰恰是曠視科技一直踐行人工智慧驅動的行業物聯網構建者(AI+IoT)戰略定位的證明。

背景

絕大多數當前最優的語義分割框架基於全卷積網路(Fully Convolutional Network/FCN)而設計。FCN 有一個典型的編碼器-解碼器結構——語義信息首先通過編碼器嵌入特徵圖,接著解碼器負責生成分割結果。

通常,編碼器是一個預訓練的卷積模型,提取圖像特徵;解碼器包含多個上採樣組件,復原解析度。儘管編碼器最頂層的特徵圖可以是高度語義的,其重建分割圖精確細節的能力卻因解析度不足而受限,這在現代 backbone 模型中很常見。

為此,U-Net 被提出,並獲得廣泛應用,其核心思想是逐漸融合頂層的高級、低解析度特徵和底層的低級、高解析度特徵,這被認為有助於解碼器生成高解析度語義特徵。雖然 U-Net 很成功,但是它的工作機制依然未知,有必要進一步探究。

設計思想

一般而言,低級特徵和高級特徵相鋪相成。低級特徵空間信息豐富,但是缺乏語義信息;高級特徵則與之相反。假定存在一個極端實例,「純」低級特徵只編碼低級概念比如點、線或者邊緣。直觀講,高級特徵與這些「純」低級特徵的融合意義不大,因為後者噪音太多,無法提供高解析度的語義信息。

相反,如果低級特徵包含更多的語義信息,比如,編碼相對明確的語義框,接著融合會簡單不少——良好的分割結果可通過對齊高級特徵圖和語義框而獲得。

相似地,「純」高級特徵的空間信息也很少,不能充分利用低級特徵;但是,通過嵌入額外的高解析度特徵,高級特徵從而有機會通過對齊最近的低級語義框來實現自我優化。上述概念的圖示請參見圖 1。

圖 1:低級特徵與高級特徵之間的融合。

根據經驗,低級特徵與高級特徵之間的語義和解析度的重疊(overlap)對特徵融合的效率而言至關重要。換言之,特徵融合可通過把更多的語義信息引入低級特徵,或者在高級特徵中嵌入更多的空間信息而實現提升。

出於上述發現,本文提出一種新框架 ExFuse,試圖通過彌補低級與高級特徵圖之間的語義與解析度的差距來完善特徵融合,其策略主要包含以下兩個方面:

1)低級特徵中引入更多語義信息,為此本文給出 3 個方法——卷積重排列(Layer Rearrangement/LR),多層語義監督(Semantic Supervision/SS) 和高級語義嵌入(Semantic Embedding Branch/SEB);

2)高級特徵嵌入更多空間信息,為此本文給出 2 個全新方法——顯式通道內嵌空間信息

(Explicit Channel Resolution Embedding/ECRE)和密集鄰域預測(Densely Adjacent Prediction/DAP)。

上述每一方法都帶來了顯著提升,組合使用漲點高達 4%。本文在 PASCAL VOC 2012 語義分割任務上對 ExFuse 進行了評估,在 test set 中,mean IoU 值高達 87.9%,超過所有當前最佳方法。

方法

本文工作主要聚焦於 U-Net 分割架構的特徵融合問題,並選擇當前最優的 U-Net 架構之一——全局卷積網路(Global Convolutional Network/GCN)——作為主要的 backbone 分割架構(細節請見圖 2)。

圖 2:ExFuse 整體架構。實線框屬於 GCN 組件,虛線框屬於 ExFuse 組件。SS – semantic supervision。ECRE – explicit channel resolution embedding。SEB – semantic embedding branch。DAP – densely adjacent prediction。

本文對 GCN 特徵融合的有效性作了評估,結果如表 1 所示。很明顯,分割質量並沒有隨著不同層級特徵的融合而提升,反而是快速達到飽和,這意味著高、低特徵的融合在 GCN 中並不奏效。而 ExFuse 可以補足這一短板。

表 1:給定特徵層級下的 GCN 分割結果,性能指標是 PASCAL VOC 2012 validation set mean IoU。

低級特徵引入更多語義信息

該策略啟發於這一事實:對於卷積神經網路來說,特徵圖與語義監督相似,傾向於編碼更多語義信息,這已被一些可視化工作所證實。本文提出如下 3 個方法:

卷積重排列(LR)

為使低級特徵(res-2 或者 res-3)「更接近於」監督,一個直接的辦法是在早期而不是後期階段(stage)安排更多的層。

實驗表明,儘管新設計模型的 ImageNet 分類分值幾乎沒有變化,其分割性能卻漲點 0.8%,這說明低級特徵的質量也可提升。

多層語義監督(SS)

多層語義監督是指把輔助監督直接指派到編碼器的早期階段(見圖 2),它主要專註於完善低級特徵的質量,而不是提升 backbone 模型本身。圖 3 展示了 SS 模塊的架構細節。

圖 3:SS 組件細節。

實驗表明,該方法可使分割結果漲點 1.1%,並且,本文發現,如果特徵提取自輔助模塊的第二個卷積層(圖 3),還會獲得更多提升(1.5%)(見表 3,對比 #1 與 #2),這論證了本文的直觀觀點:更接近於監督的特徵圖傾向於編碼更多的語義信息。

高級語義嵌入(SEB)

如上所述,很多 U-Net 架構把低級特徵作為上採樣的高級特徵的殘差。但是,如果低級特徵包含很少的語義信息,則並不足以復原語義解析度。

圖 4:SEB 設計圖示。「×」 表示逐元素乘法。

為克服這一問題,高級語義嵌入應運而生,其設計細節圖 4 所示。SEB 用於 level 1-3 的特徵,在實驗中 SEB 帶來了 0.7% 的漲點(表 3,對比 #3 和 #5)。

高級特徵嵌入更多空間信息

在大多數特徵提取網路中,高級特徵往往包含較少空間信息,一個常用的解決方案是 dilated strategy,可以增大解析度而無需再訓練 backbone,但弊端是加大了網路的計算量。

本文擯棄這種「物理式」方法,轉個方向,試圖在通道之中編碼更多的解析度信息,具體有如下 2 個方法:

顯式通道內嵌空間信息(ECRE)

一開始,本文嘗試在第一個解卷積模塊中添加額外的分割損失(見圖 2 淺藍色組件),但是性能並未出現任何提升。為此,本文採用一種無需調參的上採樣方法——Sub-pixel Upsample——以替代原先的解卷積。

圖 5:ECRE 設計圖示。

由於子像素上採樣僅通過重塑空間和通道維度即可擴大特徵圖,輔助監督從而可以明確地影像特徵。實驗表明它可以帶來 0.5% 的漲點(mIoU)。

密集鄰域預測(DAP)

在圖 2 中,空間定位 (i,j) 上的特徵點主要負責相同位置的語義信息。為儘可能多地把空間信息編碼進通道,本文提出一種全新的機制——密集鄰域預測,可以預測鄰近位置的結果,比如 (i-1,j+1) 。

圖 6:DAP 設計圖示。

接著,為了獲得最後的分割圖, (i,j) 位置上的結果可通過平均相關值而獲得。DAP 用於解碼器的輸出預測(見圖 2)。實驗結果表明,其為性能提升(mIoU)帶來了 0.6% 的漲點。

實驗結果

在沒有藉助任何 DenceCRF 後處理的情況下,ExFuse 框架最終在 PASCAL VOC 2012 test set 上的 mIoU 值為 87.9%,超越了當前所有最佳結果(見表 8)。公平起見,本文也使用標準 ResNet-101 做了評估,依然取得了 86.2% mIoU,優於相同條件下的 DeepLabv3。

表 8:ExFuse 在 PASCAL VOC 2012 test set 上的結果。

圖 7 可視化了基線 GCN 和 ExFuse 的一些代表性結果。很明顯本文方法要優於基線。

圖 7:ExFuse 在 PASCAL VOC 2012 validation set 上的分割結果實例。(b) 是 GCN(81.0% mIoU),(c) 是 ExFuse(85.4% mIoU)。

結論

在本文的工作中,作者首先指出當前的 U-Net 架構普遍存在特徵融合低效的問題;接著,本文提出 ExFuse 框架,通過彌補高級的低解析度特徵與低級的高解析度特徵之間的差距以克服這一問題;最後,大幅的分割性能的提升證實存在更好的特徵融合。另外,ExFuse 還在 PASCAL VOC 2012 test set 上取得了當前最優性能。

參考文獻

Peng, C., Zhang, X., Yu, G., Luo, G., Sun, J.: Large kernel matters – improve semantic segmentation byglobalconvolutional network. (2017)

Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation. In: Computer Vision and Pattern Recognition. (2015) 3431–3440

往期解讀


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Megvii曠視科技 的精彩文章:

曠視科技提出DetNet:一個為物體檢測而生的Backbone

TAG:Megvii曠視科技 |