代碼開源｜COCO-16 圖像分割冠軍：首個全卷積端到端實例分割模型

新聞 05-23

新智元報道

代碼開源｜COCO-16 圖像分割冠軍：首個全卷積端到端實例分割模型

繼圖像分類、物體檢測之後，精確到像素級別的物體實例分割就成為更具挑戰性和實用性的視覺識別任務。前兩個任務在近年來取得了迅速的進展，已經有了不少優雅有效的方法。然而，實例分割任務卻還缺少一個標杆性的工作。

為此，來自清華大學和微軟研究院的李益、齊浩之、代季峰、季向陽、危夷晨合作，利用全卷積神經網路（FCN）在圖像語義分割和實例分割預測方面的優勢，提出了一種新的架構 FCIS。

FCIS 是首個全卷積、端到端的實例分割解決方案，為實例分割提供了一個簡單、快速、準確的框架，由於考慮到實例分割預測和分類這兩個步驟之間的關聯，FCIS 能夠同時對多個物體實例進行檢測和分割。

FCIS 在 COCO 2016 分割競賽中以顯著優勢獲得了第一名。日前，他們的研究論文《全卷積實例語義分割》（Fully Convolutional Instance-aware Semantic Segmentation）被 CVPR 2017 作為亮點論文接收，作者將論文上傳到 arXiv，也將代碼在 Github 開源。

代碼開源｜COCO-16 圖像分割冠軍：首個全卷積端到端實例分割模型

FCIS：首個用於實例分割的全卷積端到端解決方案

現有的主流實例分割方法，幾乎都是在常用的物體檢測方法的基礎上進行簡單直接的擴展，對於問題的理解還不夠深入，計算效率和精確度都還有很大的提升空間。

例如，對於興趣區域（Region of Interests, RoI）的分類和分割作為單獨的兩個步驟進行，沒有充分利用這兩個任務的關聯性；對於分割子網路的訓練沒有考慮物體類別的差異；對於每個 RoI 運行一個分割子網路導致計算效率低下；RoI Pooling 應該用更精確的對齊方式……

「我們之前在 NIPS 2016 發表的做物體檢測的工作 R-FCN，其兩個主要思想，一是基於高效的全卷積網路，二是利用位置敏感的 RoI Pooling 打破平移不變性，也都適合用來做實例分割，於是就沿著這個思路做下來了，希望能解決上述問題。」微軟研究人員介紹說。

代碼開源｜COCO-16 圖像分割冠軍：首個全卷積端到端實例分割模型

提出 FCIS 的思路示意圖。(a) 用於語義分割的全卷積網路（FCN）。每一類都有單獨的一張 score map，這張圖不會區分單個的物體實例。(b) 用於實例分割預測的 InstanceFCN，一個大小為 3×3 位置敏感的 score map 會將相關的位置信息編碼。InstanceFCN 產生一系列的分割候選，後續有一個網路會對這些分割候選做分類判別。(c) 新提出的全卷積實例語義分割方法（FCIS），其中位置敏感的內/外 score maps 會在同一時間對多張連在一起的圖像進行分割和檢測。來源：Yi Liet al.Fully Convolutional Instance-aware Semantic Segmentation

代碼開源｜COCO-16 圖像分割冠軍：首個全卷積端到端實例分割模型

FCIS 整體架構。一個區域預測網路（RPN）與 FCIS 共享卷積層。RPN 產生的興趣區域（RoI）會作用在 score maps 上，同時產生分類和分割預測。權重可學的層都是卷積層，並且在整張圖像上進行計算。每個 RoI 所產生的額外計算成本可以忽略不計。來源：Yi Liet al.Fully Convolutional Instance-aware Semantic Segmentation

利用分類和分割的相關性，同時解決兩個任務

據微軟研究人員介紹，剛開始嘗試時，他們先是簡單將 R-FCN 用於做物體分類的 score maps 擴充為共享基礎卷積網路的兩路 score maps，各自解決 RoI 分類和分割的問題，網路結構類似於一個簡單的多任務網路，相對於 R-FCN，增加的參數和計算量都很少。

不過，當他們將新架構和 MS COCO 物體分割比賽 2015 年冠軍方法 MNC（也是他們的工作）比較時，發現在 VOC 數據集上 FCIS 相較於 MNC 的精度優勢不夠大，雖然速度和內存的優勢明顯。

但是，在 COCO 數據集上測試後，精度的差距又明顯拉開了。作者分析認為，他們的方法對於更加困難的小物體，多類別的 COCO 數據集作用更明顯。並且，COCO 的性能評價指標對於物體定位和分割的精度要求更高，更能反應出新方法高精度的優勢。

經過進一步思考，研究人員認為應該充分利用分類和分割兩個任務的相關性。他們發現通過一個簡單的重新參數化，可以將原本不相關的兩路 score maps 變得密切相關，使它們可以被同時用來解決兩個任務。

這樣做的好處是它們各自的訓練會同時受到兩路監督信號的影響，相當於更充分利用了訓練數據，而沒有增加任何模型的複雜度和計算代價，實驗結果也更上了一層樓的。

「這也是我們最後論文里的基於全卷積網路的方法，簡單高效，解決了前面提到的所有問題，最終獲得了 MS COCO 比賽 2016 年的冠軍。」論文第一作者李益告訴新智元。

代碼開源｜COCO-16 圖像分割冠軍：首個全卷積端到端實例分割模型

（在「人」這一類別中）不同 RoI 實例分割和分類的結果。Score Maps 在不同 RoI 和兩個子任務之間是共享的。紅點表示圖像上同一個像素在不同的 RoI 里有不同的語義。來源：Yi Liet al.Fully Convolutional Instance-aware Semantic Segmentation

目前，團隊在 ICCV 投稿了一篇新的文章，Deformable Convolutional Networks。這個工作可以對於卷積核的空間採樣位置進行自適應的學習和調整，效果是可以根據圖像內容學習到空間可變形的卷積網路。

「我們相信這也是一個標杆性的工作。我們在 ICCV 的投稿中還沒有在物體實例分割任務上進行測試，接下來打算試一下。」

論文：全卷積實例語義分割

代碼開源｜COCO-16 圖像分割冠軍：首個全卷積端到端實例分割模型

作者：李益、齊浩之、代季峰、季向陽、危夷晨

摘要

我們提出了首個用於實例分割（instance-aware）任務的全卷積端到端解決方案。它繼承了全卷積網路（FCN）在語義分割和實例分割預測（instance mask proposal）方面的全部優點，能同時對多個物體實例進行檢測和分割。通過引入位置敏感的內/外 score maps，底層卷積表徵在兩項子任務及所有興趣區域（RoI）之間是完全共享的。我們提出的網路具有很高的集成性，在精度和效果兩方面都達到了目前最好的結果，也以顯著優勢贏得了 COCO 2016 圖像分割競賽的冠軍。代碼開源地址：https://github.com/daijifeng001/TA-FCN

論文第二版 arXiv（CVPR-17 接收）：https://arxiv.org/pdf/1611.07709.pdf
Github 代碼開源：https://github.com/msracver/FCIS

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※李沐：如何看待谷歌既可以做 Inference，又可以做 Training 的新一代 TPU？
※「圍棋人機終極PK一觸即發」DeepMind 宣布烏鎮圍棋人機對戰時間表
※「乾貨」ICLR-17 最佳論文詳解：理解深度學習要重新思考泛化
※CB Insights｜全球44家無人駕駛企業：百度、華為、滴滴等萬字點評
※「280頁JP摩根報告」大數據和 AI 策略——面向投資的機器學習和另類數據方法

TAG:新智元 |

您可能感興趣

※IEEE IV 2018：一種實例分割方法實現端到端車道檢測
※BTS防彈少年團不可分割的一部分：阿米A.R.M.Y
※「真刀真槍」的ISICDM 2018胰腺分割挑戰賽排名揭曉，中山大學計算醫學成像實驗室斬獲冠軍
※最新一代驍龍移動處理器曝光，雙版本865，5G作為分割點
※圖像分割概述 & ENet?實例
※從人臉檢測到語義分割，OpenCV預訓練模型庫
※Apple News+上線2天訂閱超20萬，蘋果將分割50%利潤
※資源 | 從人臉檢測到語義分割，OpenCV預訓練模型庫
※基於點雲的分類分割：Point Net
※280萬分割掩碼，谷歌Open Images數據集再更新
※資源｜從人臉檢測到語義分割，OpenCV預訓練模型庫
※超Mask RCNN速度4倍，僅在單個GPU訓練的實時實例分割演算法
※PPT排版中的版面分割
※SLIC超像素分割演算法研究（代碼可下載）
※Semantic3D——戶外場景點雲分割數據集
※「圖像分割里程碑」南開提出首個人眼模擬分割指標，性能當前最優
※曠視科技2018 COCO負責人俞剛：如何構建檢測與分割的冠軍系統
※語義圖像分割解密谷歌DeepLab-v3＋
※ETH Zurich提出新型網路「ROAD-Net」，解決語義分割域適配問題
※CVPR 2019 Oral 論文解讀 | 無監督域適應語義分割