Facebook、谷歌分別改進何愷明 FPN 工作

新聞 04-20

雷鋒網 AI 科技評論按：在計算機視覺領域中，多維度目標檢測一直被用作輸入以生成反映不同維度信息的特徵組合，這種辦法能夠有效表達圖片上的各種維度特徵，然而卻對硬體計算能力及內存大小有較高要求，因此只能在有限的領域內部使用。Facebook 於 2016 年在論文《Feature Pyramid Networks for Object Detection》中提出的 FPN，通過利用常規 CNN 模型內部從底至上各個層對同一 scale 圖片不同維度的特徵表達結構，提出了一種可有效在單一圖片視圖下生成對其的多維度特徵表達的方法。近期，Facebook 和谷歌接連發布了基於 FPN 的改進工作，我們將之整理如下。

2018 年初，Facebook 還在論文《Panoptic Segmentation》中對全景分割 Panoptic Segmentation 任務進行了研究，並提出了自己的解決方案 Panoptic FPN。由於全景分割任務近期開始變得熱門，Facebook 考慮把 FPN 模型用於一次性解決全景分割任務，於是在今年 1 月發布了《Panoptic Feature Pyramid Networks》，以下為論文摘要：

我們近期引介的全景分割任務，成功引起了社區對於統一實例分割與語義分割任務的興趣。然而，當前用於處理該聯合任務的最先進方法，依然使用的是獨立且不相似的網路，因而未具備相應的共享計算。在這項工作中，我們的目標是在架構層面統一這些方法，為兩個任務設計一個統一的網路。我們將作為語義分割方法分支的共享特徵金字塔網路（FPN）與 Mask R-CNN（一種流行的實例分割方法）進行結合。令人驚訝的是，這個簡單的基線不僅對示例分割任務有效，而且還產生了一種輕量級、性能出眾的語義分割方法。在這項工作中，我們對帶有 FPN 的 Mask R-CNN 進行了詳細研究，我們將之稱為 Panoptic FPN，並成功展示對於兩個任務而言，它是一個穩健且準確的基線。鑒於其有效性和概念性簡單，我們希望該方法能幫到未來的全景分割研究。

論文鏈接：

https://arxiv.org/abs/1901.02446

今年 4 月 16 日，谷歌接著發布一篇名為《NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection》論文，提出一項可以更好用於目標檢測的 NAS-FPN。該論文已被 CVPR 2019 接收，以下為論文摘要：

如今用於物體檢測的最先進卷積體系結構都是人為設計的。因此，我們的目標是為物體檢測構建一個更好的特徵金字塔網路架構。我們採用神經架構搜索（Neural Architecture Search），在一個涵蓋所有跨規模連接的新型可擴展搜索空間中發現了新的特徵金字塔架構，這個被命名為NAS-FPN的架構由自上而下和自下而上的連接組合而成，可跨規模進行融合。與最先進的物體檢測模型相比，在 RetinaNet 框架里集合了各種骨幹模型的 NAS-FPN 能達到更好的準確性和延遲權衡。與最先進的 SSDLite + MobileNetV2 模型相比，NAS-FPN 成功將移動檢測的精度提高了 2 AP，並以 48.3 AP 成功超越 Mask R-CNN 的檢測精度，而且使用的計算時間更短。

論文鏈接：

https://arxiv.org/abs/1904.07392

雷鋒網 AI 科技評論雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※阿里的後智能生活時代
※嬴徹科技核心團隊亮相自動駕駛定位車規級量產

TAG:雷鋒網 |