當前位置:
首頁 > 科技 > 魚與熊掌可以兼得:何愷明等人一統語義分割與實例分割

魚與熊掌可以兼得:何愷明等人一統語義分割與實例分割


選自arXiv


作者:Alexander Kirillov、Ross Girshick、Kaiming He、Piotr Dollár


機器之心編譯


參與:

張倩、王淑婷


全景分割是很吸引人的主題,它結合語義和實例分割的優勢構建更強大的方案。但目前大多數頂尖方法都分別用兩個模型建模語義和實例分割兩種任務,並最後將預測結果組合在一起。這種方法並不能利用兩者間的交互信息提供更準確的預測,這樣也就沒什麼意義了。在何愷明等研究者的這篇論文中,他們結合 Mask R-CNN 與 FCN 構建出一種新型的全景分割模型,這個統一的模型在兩種任務間共享計算,並實現非常好的性能。

近年來,語義分割快速發展,這項任務是為每個像素分配一個類別標籤。在最近的實例分割中,機器的任務是檢測和分割每個目標實例。用於語義分割的全卷積網路(FCN)[39] 和實例分割的 Mask R-CNN[23] 等簡單而強大的基線方法也促成了這些進展。這些方法概念上非常簡單、快速、靈活,可以作為該領域許多後續進展的基礎。本文作者的目標是提出一種類似的簡單、單網路基線方法,用於全景分割 [29] 聯合任務,該任務包含語義分割和實例分割。

儘管概念上非常直觀,但設計一個針對兩種任務準確率都很高的單個網路非常困難,因為在兩種任務上表現最好的方法都存在著許多差異。語義分割任務中佔領榜單 [17, 14] 的網路是 FCN,它擁有由空洞卷積增強的特殊主幹 [55, 10]。在實例分割任務中,帶有特徵金字塔網路(FPN)[34] 主幹的基於區域的 Mask R-CNN [23] 成為解決幾個棘手識別難題 [35, 58, 41] 的基礎。儘管已經有研究者嘗試統一語義分割和實例分割 [44, 1, 9],但鑒於它們同時訓練但基準測試各自獨立的特性,目前為實現各自最佳性能所必需的專門化可能是不可避免的。

由於這些頂尖方法存在架構上的差異,有人可能認為在設計用於兩個任務的單個網路時犧牲其中一個的準確率是必須的。但是,本文作者提出了一種簡單、靈活的高效架構,在兩種任務中都能利用單個網路取得很高的準確率,這個網路可以同時生成基於區域的輸出(實例分割)和像素密集的輸出(語義分割)。

該方法從實例級識別 [23] 中流行的 FPN[34] 主幹入手,並添加了一個分支,用於並行執行語義分割和現有的基於區域的實例分割分支(見圖 1)。作者在添加密集預測分支時沒有改變 FPN 的主幹,使其能夠兼容現有的實例分割方法。本文提出的方法名為全景 FPN,因為它可以通過 FPN 同時進行實例分割和語義分割,在給定 Mask R-CNN 框架的情況下非常容易實現。


圖 1:全景 FPN:(a)作者從目標檢測中廣泛用於抽取豐富的具有多尺度特徵的 FPN 主幹入手。(b)在 Mask R-CNN 中,作者在 FPN 上利用基於區域的分支進行實例分割。(c)同時,作者在同樣的 FPN 特徵上添加了輕量級密集預測分支用於語義分割。利用 FPN 進行的 Mask RCNN 簡單擴展使其對兩個任務來說都是快速、準確的基線。

雖然全景 FPN 是 Mask RCNN 利用 FPN 進行的簡單擴展,但適當訓練兩個分支來同時進行基於區域和密集像素的預測對於結果的優劣至關重要。作者在合二為一的網路中進行了細緻的研究,以平衡兩個分支的損失、高效構建小批量、調整學習率計劃及實現數據增強。作者還探索了用於語義分割分支的多種設計(其它網路組成部分都按照 Mask R-CNN 設計)。總體來看,儘管該方法對於準確的設計選擇是魯棒的,但用適當的方法解決這些問題才是取得良好結果的關鍵。

單獨為每個任務訓練時,本文方法在兩個數據集(COCO 和 Cityscapes)的實例分割和語義分割方面都取得了極好的結果。在實例分割中的結果不出所料,因為該方法在此案例中等效於 Mask R-CNN。而在語義分割中,附加在 FPN 上的這一簡單密集預測分支產生的準確率卻足以匹敵基於空洞卷積的最新方法(如精心設計的 DeepLabV3+)。

對於全景分割,作者證明了通過適當的訓練,可以使用單個 FPN 來同時解決兩個任務(語義分割和實例分割),且產生的準確率相當於訓練兩個單獨的 FPN,而所需的計算量僅為一半。計算量相同的情況下,用於兩個任務的聯合網路遠遠優於兩個單獨的網路。全景分割結果示例如圖 2 所示。


圖 2:使用單個 ResNet-101-FPN 網路在 COCO 數據集(上)和 Cityscapes 數據集(下)上的全景 FPN 結果。

全景 FPN 具有高效的存儲和計算能力,在 Mask R-CNN 上所需花費甚少。通過避免使用開銷很高的空洞卷積,該方法可以使用任何標準的頂級主幹(如大型 ResNeXt)。作者認為,該方法的靈活性、快速訓練能力和推斷速度將有利於未來的全景分割研究。

在 2017 年的 COCO Stuff Segmentation 挑戰賽中,作者獲得第一名時使用的是其模型的初始版本(僅語義分割分支)。然後該單分支模型被採用和泛化至 2018 COCO & Mapillary 挑戰賽的幾個項目中,充分展示了其靈活性和有效性。作者希望本文提出的聯合全景分割基線將同樣有效。

論文:Panoptic Feature Pyramid Networks

論文地址:https://arxiv.org/abs/1901.02446v1

摘要:

最近引入的全景分割任務再次激發了社區統一實例分割和語義分割任務的興趣。然而,當前針對這一聯合任務的最佳方法使用的是各自獨立的不同網路,這些網路進行實例分割和語義分割,但並不執行任何共享計算。在本文中,作者的目標是在架構層面統一這些方法,設計單個網路來解決兩個任務。本文提出的方法通過使用共享的特徵金字塔網路 (FPN) 主幹,給 Mask R-CNN(流行的實例分割方法)添加了語義分割分支。令人驚訝的是,這個簡單的基線不僅對實例分割有效,而且還產生了一種輕量級的、性能最佳的語義分割方法。在本文中,作者對這種帶有 FPN 的 Mask R-CNN(稱之為全景 FPN)最小擴展版本進行了詳細研究,發現對兩項任務來說,它都是魯棒又準確的基線。由於這種方法概念簡單且有效,作者希望該方法可以作為強大的基線,助力未來的全景分割。

3.1 模型架構



  • 特徵金字塔網路:FPN 採用具有多種空間解析度特徵的標準網路(如 ResNet [24]),並增加了一條具有橫向連接的自上而下的輕型路徑。



  • 實例分割分支:FPN 的設計,尤其是所有金字塔級別使用相同的通道尺寸,使連接基於區域的目標檢測器(如 Faster R-CNN)變得更加簡單。



  • 全景 FPN:如上所述,本文的方法是用 FPN 修改 Mask R-CNN,以實現像素級語義分割預測。



  • 語義分割分支:為了根據 FPN 特徵生成語義分割輸出,作者提出了一個簡單的設計——將來自 FPN 金字塔所有級別的信息合併至單個輸出中。

圖 3:語義分割分支。每個 FPN 級別(左)通過卷積和雙線性上採樣進行上採樣,直到大小變為 1/4(右),然後將這些輸出相加,最後轉換成像素輸出。

4. 實驗





表 1:使用 FPN 的語義分割。


表 2:多任務訓練:(a,b) 在單任務基線上增加一個語義分割分支並適當調整λs(加粗部分),能夠略微改善實例分割的結果。注意,λs 是指分配給語義分割損失的權重,λs=0.0 作為單任務基線。(c,d) 在單任務基線上增加一個實例分割分支並適當調整λi(加粗部分),能夠給語義分割帶來更大改善。和之前一樣,λi 是指分配給實例分割損失的權重,λi = 0.0 被用作單任務基線。


表 3:全景 FPN 結果。


圖 6:使用單個 ResNet-101-FPN 網路在 COCO 數據集(上)和 Cityscapes 數據集(下)上的更多全景 FPN 結果。 

本文為機器之心編譯,

轉載請聯繫本公眾號獲得授權



?------------------------------------------------


加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com


投稿或尋求報道:

content

@jiqizhixin.com


廣告 & 商務合作:bd@jiqizhixin.com

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

如何用人工智慧進行電子交易?摩根大通說要解決這些難題
2018人工智慧期末考試複習資料(一):學術篇

TAG:機器之心 |