當前位置:
首頁 > 知識 > 解讀目標檢測新範式:Segmentations is All You Need

解讀目標檢測新範式:Segmentations is All You Need

機器之心發布

者:程澤華

多年來,基於候選區域網路(RPN)的現有模型在目標檢測任務中得到了廣泛認可,NMS 是該模型的基礎,但這種模型也存在一定缺陷,如在複雜遮擋情況下召回率很低。為了解決這一問題,程澤華等研究者提出使用弱監督分割多模態注釋,在沒有 NMS 的情況下實現了高度穩健的目標檢測性能。

作者利用注釋質量較差的邊界框在困難環境中實現穩健的目標檢測性能,避免了與 anchor 框或 NMS 相關的所有超參數。他們提出的模型超越了之前基於 anchor 的一步和多步檢測器,而且簡單得多。該模型在準確性和召回率方面都達到了當前最佳水平。這項工作的一作,程澤華對該論文進行了解讀。

論文:Segmentations is All You Need

論文鏈接:https://arxiv.org/pdf/1904.13300v3.pdf

RPN 系統的基本邏輯定位和分類已經在很多檢測任務中已經取得了不錯的成績,然而這並不符合人認知事物的過程——人做檢測,一步到位。也就是說,無論是 anchor 還是 NMS,都不應該存在於整個訓練過程。論文中提到的新標註方法可以直接把檢測(detection)標註轉化成一個二值化的多模態標註,沒有 NMS,也沒有 Anchor。

邊界框(Bounding Box)不應該存在

雖然 anchor 的存在減少了很多計算量,但是也帶來了超參數增加、人為調參過擬合評測數據集、前後景目標類別不平衡等一系列令人頭疼的問題。

讓我們回到邊界框的本質。所有的邊界框其實都是一種無限制保證前景物體像素召回率的標註方式,它會儘可能貼著外輪廓,因此會導致背景像素大量進入框內。然而,真實世界的物體可以隨意轉動,不同的機位拍一個 3D 物體出現的結果可以大不相同,因此用框作為一個表徵工具來把東西框起來,本身就不穩健。而且,框的標註本身也帶有一定的隨機性,畢竟要遵守標註規則把框標得非常好可能花的成本也會很高。

非極大值抑制(NMS)不應該存在

NMS 是一項很神奇的工作,目標檢測領域用 NMS 作為選框策略已經有大概幾十年了,因為沒有一項工作能超越它。然而如上所述,既然邊界框本身並不穩健,選出的框再優秀也無濟於事。更何況選出的框也不會格外優秀,因為真實世界裡不可能有一個具體的閾值來控制所有的場景,例如遮擋問題。現實世界中的遮擋問題十分複雜,擋了一部分和擋了一大半完全不是同一種情況。既然如此,用一個單一的閾值怎麼可能解決問題?事實上,在之前的工作中,動態調整 NMS 的 SoftNMS、動態調整 IoU 的 Cascade RCNN 方案都取得了很不錯的結果,但是前者依然迴避了「複雜遮擋」的複雜性,後者參數量激增,速度慢到難以想像。

如上所言,邊界框靠不住,NMS 也靠不住。

那麼為什麼不直接做分割?分割存在哪些問題?

分割(segmentation)的問題所在

Anchor Free 方法已經不新鮮了,相信這些問題早已經讓一些一線工作的研究人員頭疼很久了。那麼為什麼難?

分割糊成一團,很難用;

分割很貴;

YOLO 又快又簡單,能滿足客戶要求。

第一個問題用 Instance Aware 可以解決,但為了完成 Instance Aware,計算量可能增加;第二個問題幾乎無解;第三個問題主要還是 YOLO 太出名,darknet 寫的是真的好,而後得過且過。

解決方案就是分割

熟悉 Kaggle 的人可能對「檢測轉分割」這個解決方案不是很陌生。檢測問題用分割標籤來做,性能就會提高很多。因為分割的表徵能力真的很強——分割樣本更少,得到的模型收斂更快,並且檢測里的難題可以得到很好的解決。對於之前提到的第二個問題,論文給出了一個轉化方法,即將檢測的標籤轉化成一個二值化的多模態標註。

論文給出的分割結果如下:

也就是說,原圖的框變成橢圓,而後分成了普通的分割形狀、邊界以及邊界交集三個不同的標籤。作者拿這些標籤來訓練,解決了不 Instance Aware 和複雜遮擋問題,而後只需要把一個二值化的輸出做一個輪廓追蹤(Contour Tracing),把分割的結果加個邊(注意,這個標註是演算法直接就能跑出來的,不是標的。)

模型推理過程

推理過程很有意思。分割的模型跑出來之後做一個簡單的集合運算就能得到一個 Instance-Aware 的結果。而這個結果和其他十分複雜的模型設計相比,似乎更簡單——二值集合運算能花多少時間?

論文中的方案兼顧了高平均查准率(AP)和高召回率(AR):

WSWA-Seg(論文中的方法)在 COCO 數據集上的 AP

WSWA-Seg(論文中的方法)在 COCO 數據集上的 AR

即使在 WIDERFACE 這種極端的數據集中,模型的表現也很不錯:

WSWA-Seg(我們的方法)在 WIDERFACE 數據集上的 F1 值

前面一直在說檢測標註的缺陷,那麼分割標註就是完美的嗎?其實不然。可以參考 CityScapes 等分割標註數據集,跟 Detection 比,它最大的問題就是,當發生嚴重遮擋時,一個實例可能對應兩個甚至獨立的連通域。

我們一直在思考一個自下而上的理念:明白五官,你才能更好地識別人臉。明白四肢,才能更好地識別人體。同理,萬事萬物都應該有「五官、四肢」這種概念。用已有的豐富經驗,把檢測化為關鍵點問題,再用自下而上的豐富經驗解決它。而人體關鍵點、人臉關鍵點對遮擋不敏感說明,「將被遮擋的部分也計入 Ground Truth、計入 IoU」是非常重要的。GAN 擁有類似分割的結構,能「腦補」細節,那分割問題也應該有「腦補」空間遮擋的能力。

但是我們還要解決第三個問題,即是否對晶元友好、是否對通信友好。在任何一個歷史時代,計算能力不足和通信能力不足是一直存在的兩件事,我們不可能跨越地球科技發展的歷史,憑空變出一整套超越時代的計算晶元、通信晶元來,這個是做任何事情的「邊界條件」。不明白邊界條件對於解決方案的重要性,相當於不明白項目預算對於項目的重要性一樣,會讓人盲目地好大喜功、事倍功半。

值得慶賀的是,不像 MobileNet、剪枝、空洞卷積、ROIAlign/ROIPooling、NMS 以上任何一點的是,低精度推斷、帶有跳過連接的 UNet with、Hourglass 以及類似 CurveGCN(https://arxiv.org/pdf/1903.06874.pdf,一作來自 UToronto,這篇的指標已經完全只看 IoU 了)的設計都能夠在集成電路上高效運行,較少地依賴訪存通信資源、存儲器件峰值速度,而且最終得到的結果是方便在網路 API 上獲得的。如果對我們的工作感興趣,歡迎閱讀我們的工作。

本文為機器之心發布,轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

結合符號主義和DL:DeepMind提出端到端神經網路架構PrediNet
如何引誘分類器犯錯?周志華等提出用自編碼器生成惡意訓練數據

TAG:機器之心 |