目標檢測發展階段
![](https://y.gtimg.cn/music/photo_new/T002R68x68M000004fAhFe0fdHYF.jpg)
小半
小夢大半
陳粒
00:00/04:57
傳統目標檢測的方法一般分為三個階段:首先在給定的圖像上選擇一些候選的區域,然後對這些區域提取特徵,最後使用訓練的分類器進行分類。對於傳統目標檢測任務中存在的兩個主要問題,可以通過基於深度卷積神經網路的目標檢測演算法來改進。
2012年ImageNet大規模視覺識別挑戰賽(ILSVRC)上,機器學習泰斗Geoffrey Hinton教授帶領學生Krizhevsky使用卷積神經網路將ILSVRC分類任務的Top-5 error降低到了15.3%,而使用傳統方法的第二名top-5 error高達26.2%。此後,卷積神經網路佔據了圖像分類任務的絕對統治地位,微軟最新的ResNet和谷歌的Inception V4模型的top-5 error降到了4%以內多,這已經超越人在這個特定任務上的能力。所以目標檢測得到候選區域後使用CNN對其進行圖像分類是一個不錯的選擇。
論文Light-Head R-CNN In Defense of Two-Stage Object Detector總結提出基於深度卷積神經網路的目標檢測演算法分為兩大門派:
(一)基於Region Proposal+CNN分類的框架(two-stage/region-based模型)
第1步是生成proposals;
第2步是對這些proposals進行分類、回歸。
代表演算法:R-CNN、Fast R-CNN、Faster R-CNN、R-FCN、Mask R-CNN等
(二)基於Regression的框架(one-stage/region-free模型)
演算法一步到位,無需區域提名,直接從圖片獲得預測結果,將目標檢測任務簡化成了回歸問題。
代表演算法:YOLO、YOLO 9000、SSD等。
通常來說,前者檢測精度高,後者檢測速度快。隨著YOLO、YOLOv2、SSD等速度極快且精度不錯的one stage detector的出現,大家似乎對RCNN family的青睞少了很多。畢竟,真正應用落地的時候,speed顯然是非常重要的一點。
![](https://pic.pimg.tw/zzuyanan/1488615166-1259157397.png)
![](https://pic.pimg.tw/zzuyanan/1482887990-2595557020.jpg)
※基於深度學習的圖像態勢感知應用研究
※自然場景中物體識別演算法研究
TAG:paper大講堂 |