目標檢測發展階段

最新 03-19

小半

小夢大半

陳粒

00:00/04:57

傳統目標檢測的方法一般分為三個階段：首先在給定的圖像上選擇一些候選的區域，然後對這些區域提取特徵，最後使用訓練的分類器進行分類。對於傳統目標檢測任務中存在的兩個主要問題，可以通過基於深度卷積神經網路的目標檢測演算法來改進。

2012年ImageNet大規模視覺識別挑戰賽（ILSVRC）上，機器學習泰斗Geoffrey Hinton教授帶領學生Krizhevsky使用卷積神經網路將ILSVRC分類任務的Top-5 error降低到了15.3%，而使用傳統方法的第二名top-5 error高達26.2%。此後，卷積神經網路佔據了圖像分類任務的絕對統治地位，微軟最新的ResNet和谷歌的Inception V4模型的top-5 error降到了4%以內多，這已經超越人在這個特定任務上的能力。所以目標檢測得到候選區域後使用CNN對其進行圖像分類是一個不錯的選擇。

論文Light-Head R-CNN In Defense of Two-Stage Object Detector總結提出基於深度卷積神經網路的目標檢測演算法分為兩大門派：

（一）基於Region Proposal+CNN分類的框架（two-stage/region-based模型）

第1步是生成proposals；

第2步是對這些proposals進行分類、回歸。

代表演算法：R-CNN、Fast R-CNN、Faster R-CNN、R-FCN、Mask R-CNN等

（二）基於Regression的框架（one-stage/region-free模型）

演算法一步到位，無需區域提名，直接從圖片獲得預測結果，將目標檢測任務簡化成了回歸問題。

代表演算法：YOLO、YOLO 9000、SSD等。

通常來說，前者檢測精度高，後者檢測速度快。隨著YOLO、YOLOv2、SSD等速度極快且精度不錯的one stage detector的出現，大家似乎對RCNN family的青睞少了很多。畢竟，真正應用落地的時候，speed顯然是非常重要的一點。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！