新論文提出通用目標分割框架Mask R-CNN：更簡單更靈活

新聞 03-26

選自arXiv.org

作者：Kaiming He等

機器之心編譯

參與：黃小天、吳攀

新論文提出通用目標分割框架Mask R-CNN：更簡單更靈活

近日，Facebook 人工智慧研究部門（FAIR）發布了一篇題為《Mask R-CNN》的新論文，描述了一種簡單、靈活和高效的通用目標分割框架。另外該團隊還在論文中表示將會發布該框架的代碼。機器之心在本文中對其進行了摘要介紹。

我們提出了一個概念上簡單、靈活和通用的用於目標實例分割（object instance segmentation）的框架。我們的方法能夠有效地檢測圖像中的目標，同時還能為每個實例生成一個高質量的分割掩碼（segmentation mask）。這個方面被稱為 Mask R-CNN，是在 Faster R-CNN 上的擴展——在其已有的用於邊界框識別的分支上添加了一個並行的用於預測目標掩碼的分支。Mask R-CNN 的訓練很簡單，僅比 Faster R-CNN 多一點計算開銷，運行速度為 5 fps。此外，Mask R-CNN 可以很容易泛化到其它任務，比如，讓我們可以在同一個框架中估計人類的姿態。我們在 COCO 難題套件的所有 3 種任務（track）上都得到了最佳結果，其中包括實例分割、邊界框目標檢測和人物關鍵點檢測（person keypoint detection）。沒有使用其它的技巧，Mask R-CNN 的表現超越了在每個任務上所有已有的單個模型，包括 COCO 2016 挑戰賽的獲勝模型。我們希望我們的簡單又有效的方法能成為一個堅實的基礎，能幫助簡化實例層面識別的未來研究。我們將會公開相關代碼。

新論文提出通用目標分割框架Mask R-CNN：更簡單更靈活

圖 1：用於實例識別的 Mask R-CNN 框架

新論文提出通用目標分割框架Mask R-CNN：更簡單更靈活

圖 2：在 COCO 測試集上的 Mask R-CNN 結果。這些結果基於 ResNet-101，在 5 fps 的速度下實現了 35.7 的 mask AP。圖上不同的顏色表示不同的掩碼，另外也給出的邊界框、類別和置信度。

新論文提出通用目標分割框架Mask R-CNN：更簡單更靈活

圖 3：頭架構（Head Architecture）：我們延展了兩個已有的 Faster R-CNN 頭 [14,21]。左圖和右圖分別展示了 ResNet C4 和 FPN 的主幹（backbone）的頭（head），分別來自 [14] 和 [21]，可以看到上面還增加了一個 mask 分支。圖中的數字表示空間解析度和信道，箭頭表示卷積（conv）、去卷積（deconv）或全連接層（fc），具體可以根據情況推斷（卷積會保持空間維度而去卷積會增加它）。除了輸出卷積是 1×1 之外，其它所有卷積都是 3×3，去卷積是 2×2，步幅為 2。我們在隱藏層中使用 ReLU [24]。左圖中 res5 表示 ResNet 的第 5 階段，為了簡單起見，我們進行了修改，使第 1 個卷積層運行在一個 7×7 RoI 上，步幅為 1（而不是如 [14] 中的 14×14，步幅為 2）。右圖中的 ×4 表示 4 個連續卷積的堆疊。

新論文提出通用目標分割框架Mask R-CNN：更簡單更靈活

表 1：在 COCO test-dev 上的實例分割 mask AP。MNC [7] 和 FCIS [20] 分別是 COCO 2015 和 2016 分割挑戰賽的獲勝模型。沒有添加其它額外的東西，Mask R-CNN 的表現超過了更複雜的 FCIS+++——其包括多種規模的訓練/測試、水平翻轉測試和 OHEM [29]。所有的條目都是單個模型的結果。

新論文提出通用目標分割框架Mask R-CNN：更簡單更靈活

表 2：Mask R-CNN 的分解。我們是在 trainval35k 上訓練的，在 minival 上測試的，除非特別指明都報道的是 mask AP 成績。

新論文提出通用目標分割框架Mask R-CNN：更簡單更靈活

表 3：在 test-dev 上目標檢測單個模型的結果（邊界框 AP）vs 當前最佳。使用 ResNet-101-FPN 的 Mask R-CNN 的表現超越了所有之前最佳模型的基本變體（在這些實驗中忽略了 mask output）。Mask R-CNN 在 [21] 的基礎上獲得的增益得益於對 RoIAlign (+1.1 APbb)、多任務訓練 (+0.9 APbb) 和 ResNeXt-101 (+1.6 APbb) 的使用。

新論文提出通用目標分割框架Mask R-CNN：更簡單更靈活

圖 6：使用 Mask R-CNN（ResNet-50-FPN）在 COCO 測試上的關鍵點檢測結果，帶有來自於同一個模型的人物分割掩碼。該模型在 5 fps 條件下實現了 63.1 的關鍵點 AP。

新論文提出通用目標分割框架Mask R-CNN：更簡單更靈活

表 4：在 COCO test-dev 上的關鍵點檢測 AP。我們的 ResNet-50-FPN 是以 5 fps 運行的單個模型。CMUPose+++[4] 是 2016 年的比賽獲勝者，其使用了多尺度測試、帶有 CPM 的後處理 [33] 和帶有一個目標檢測器的濾波，累加了約 5 分（在個人通信中闡明的）。? : G-RMI 是在 COCP plus MPII [1]（2.5 萬張圖像）上訓練的，使用了兩個模型（Inception-ResNet-v2 + ResNet- 101）。因為它們使用了更多數據，所以這不是與 Mask R-CNN 的直接對比。

新論文提出通用目標分割框架Mask R-CNN：更簡單更靈活

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※演講｜Yann LeCun清華演講：深度學習與人工智慧的未來
※RBR：2017年全球最有影響力的50家機器人公司

TAG:機器之心 |

您可能感興趣