當前位置:
首頁 > 知識 > 乾貨!一文讀懂行人檢測演算法

乾貨!一文讀懂行人檢測演算法

1引言

行人檢測可定義為判斷輸入圖片或視頻幀是否包含行人,如果有將其檢測出來,並輸出bounding box 級別的結果。由於行人兼具剛性和柔性物體的特性 ,外觀易受穿著、尺度、遮擋、姿態和視角等影響,使得行人檢測成為計算機視覺領域中一個既具有研究價值同時又極具挑戰性的熱門課題。

行人檢測系統的研究起始於二十世紀九十年代中期,是目標檢測的一種。從最開始到2002 年,研究者們借鑒、引入了一些圖像處理、模式識別領域的成熟方法,側重研究了行人的可用特徵、簡單分類演算法。自2005 年以來,行人檢測技術的訓練庫趨於大規模化、檢測精度趨於實用化、檢測速度趨於實時化。隨著高校、研究所以及汽車廠商的研究持續深入,行人檢測技術得到了飛速的發展。本文主要介紹行人檢測的特徵提取、分類器的發展歷程以及行人檢測的現狀。


2特徵提取

2.12001~2005 特徵提取

在早期的 PDS 中,在早期的 PDS 中 ,大多數工作僅使用一種外觀 特徵或者一種運動特徵,外觀特徵主要有原始灰度 和輪廓 ,也有少量工作使用了顏色. 由於每種特徵的針對性不同 ,只使用一種特徵的PDS 都難以獲得較好的檢測性能。

隨著時間的發展,出現了倆種不同的研究趨勢,一種是對人的外觀特徵和運動特性更具針對性。

(a)新的外觀特徵:

( Ⅰ) Amnon 等提出了基於人體的 9 個關鍵部位及其相對位置關係構成的 13 個關鍵特徵 ;

(Ⅱ) Havasi 提出了基於人腿的三次對稱性特徵

(b) 新的運動特徵: Ran 等提出了人腿形態周期性特徵。

(c)新的抽象特徵:Lowe 提出來SIFT 特(一種計算機視覺的演算法,用來偵測與描述影像中的局部性特徵,它在空間尺度中尋找極值點,並提取出其位置、尺度、旋轉不變數),它具有尺度不變的良好特徵;Amnon 也將在這一特徵引入到起 PDS 用於形狀特徵的表示。

另一種是使用多種特徵綜合的表示方法.Viola在2003年提出綜合使用外觀和運動特徵的特徵聯合表示方法,使用結合串聯的組合分類機制。

此外,在一些工作中,也開始實行在全局特徵中加入局部特徵作為補充,此種方法可以提高檢測率,降低誤差率,部分解決障礙物的遮擋問題。


2.2 2005~2011 特徵提取

2.2.1行人特徵

隨著行人特徵提取類型 逐漸發展,提取類型不僅僅只是外觀和運動特徵,慢慢增加,可分為三類:底層特徵,基於學習的特徵,以及混合特徵。


2.2.2底層特徵 基於學習的特徵 混合特徵

註:0 底層特徵 1 基於學習的特徵 2 混合特徵

3行人檢測的進程

3.1行人檢測方法

(1)以Gavrila 為代表的全局模板方法:基於輪廓的分層匹配演算法,構造了將近 2500 個輪廓模板對行人進行匹配, 從而識別出行人。為了解決模板數量眾多而引起的速度下降問題,採用了由粗到細的分層搜索策略以加快搜索速度。另外,匹配的時候通過計算模板與待檢測窗口的距離變換來度量兩者之間的相似性。

(2)以Broggi 為代表的局部模板方法:利用不同大小的二值圖像模板來對人頭和肩部進行建模,通過將輸入圖像的邊緣圖像與該二值模板進行比較從而識別行人,該方法被用到義大利 Parma 大學開發的ARGO 智能車中。

(3)以Lipton 為代表的光流檢測方法:計算運動區域內的殘餘光流;

(4)以Heisele 為代表的運動檢測方法:提取行人腿部運動特徵;

(5)以Wohler 為代表的神經網路方法:構建一個自適應時間延遲神經網路來判斷是否是人體的運動圖片序列;

以上方法,存在速度慢、檢測率低、誤報率高的特點。


3.2分類器

分類器的構造和實施大體會經過以下幾個步驟:

選定樣本(包含正樣本和負樣本),將所有樣本分成訓練樣本和測試樣本兩部分。

在訓練樣本上執行分類器演算法,生成分類模型。

在測試樣本上執行分類模型,生成預測結果。

根據預測結果,計算必要的評估指標,評估分類模型的性能。


4行人檢測的現狀

4.1 基於背景建模

背景建模方法,提取出前景運動的目標,在目標區域內進行特徵提取,然後利用分類器進行分類,判斷是否包含行人; 背景建模目前主要存在的問題:必須適應環境的變化(比如光照的變化造成圖像色度的變化),機抖動引起畫面的抖動(比如手持相機拍照時候的移動),圖像中密集出現的物體(比如樹葉或樹榦等密集出現的物體,要正確的檢測出來),必須能夠正確的檢測出背景物體的改變(比如新停下的車必須及時的歸為背景物體,而有靜止開始移動的物體也需要及時的檢測出來),以及物體檢測中往往會出現Ghost 區域。

4.2 基於統計學習的方法

這也是目前行人檢測最常用的方法,根據大量的樣本構建行人檢測分類器。提取的特徵主要有目標的灰度、邊緣、紋理、顏色、梯度直方圖等信息。分類器主要包括神經網路、SVM、adaboost 以及現在被計算機視覺視為寵兒的深度學習。

統計學習目前存在的難點:

(a)行人的姿態、服飾各不相同、複雜的背景、不同的行人尺度以及不同的關照環境。

(b)提取的特徵在特徵空間中的分布不夠緊湊;

(c)分類器的性能受訓練樣本的影響較大;

(d)離線訓練時的負樣本無法涵蓋所有真實應用場景的情況;目前的行人檢測基本上都是基於法國研究人員 Dalal 在 2005 的

CVPR 發表的HOG+SVM 的行人檢測演算法。HOG+SVM 作為經典演算法也別集成到OpenCV 裡面去了,可以直接調用實現行人檢測為了解決速度問題可以採用背景差分法的統計學習行人檢測,前提是背景建模的方法足夠有效(即效果好速度快),目前獲得比較好的檢測效果的方法通常採用多特徵融合的方法以及級聯分類器。(常用的特徵有Harry-like、Hog 特徵、LBP 特徵、Edgelet 特徵、CSS 特徵、COV 特徵、積分通道特徵以及CENTRIST 特徵。

圖:基於場景模擬與統計學習的行人檢測框架


5關於Faster R-CNN 的行人檢測

5.1 Faster R-CNN 的缺點及處理方法

Faster R-CNN 在目標檢測上準確,但在行人檢測上效果一般, Faster R-CNN 用於行人檢測效果不好的原因有兩個:

(1)行人在圖像中的尺寸較小,對於小物體, 提出的特徵沒有什麼區分能力。

針對該情況,可以淺層池化,通過hole algorithm(「 a trous」or filter rarefaction )來增加特徵圖的尺寸。

(2)行人檢測中的誤檢主要是背景的干擾,廣義物體檢測主要受多種類影響,存在大量困難負樣本。 可以使用 cascaded Boosted Forest 來提取困難負樣本,然後對樣本進行賦予權重。直接訓練 RPN 提出的深度卷積特徵。


5.2 方法

通過RPN 生成卷積特徵圖和候選框,Faster R-CNN 的RPN 主要是用於在多類目標檢測場景中解決多類推薦問題,因此可以簡化 RPN 來進行單一問題檢測。 通過Boosted Forest 作為分類器來提取卷積特徵,從RPN 提取的區域,我們使用RoI 池化提取固定長度的特徵。在此時要注意的是,不同於以前方法中會 fine-tune 膨脹之後的卷積核,只是來提取特徵而不進行fine-tune(在這裡有可能fine-tune之後RPN的整體效果下降了,但是可能提取高分辨特徵的能力提升了),接下來實現細節。


6總結

本文通過從特徵提取和分類器等來簡單介紹行人檢測的發展進程,同時也大致介紹了行人檢測的現狀以及較為詳細的敘述了關於Faster R-cnn 的行人檢測一些問題的處理方法和

- 加入AI學院學習 -

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI講堂 的精彩文章:

印度正掃描 13 億人口的指紋、眼睛和臉部!
AI替代人已經不可逆 傳統崗位失業潮來襲!

TAG:AI講堂 |