基於深度學習的圖像態勢感知應用研究
碩博論文 楊文慧 2016年 哈爾濱工業大學
摘要
態勢感知系統對數據信息的快速自主分析能力使其越來越多地應用於作戰指揮控制、智能安防及網路安全等領域。隨著信息技術的發展和信息量的爆炸性增長,構建能夠自主挖掘數據信息並對環境態勢擁有一定感知能力的態勢感知系統成為一項重要研究課題。態勢感知系統的構建要對當前環境中存在的物體目標進行類別及位置等屬性的感知,然後綜合各類感測器信息,分析各態勢要素的狀態,並對其發展態勢做出一定程度的預測估計。在整個態勢感知系統中,對態勢要素即物體目標的發現及類別、位置等的分析是實現系統整體功能的基礎和關鍵,在眾多感測器信息中,圖像數據中的物體目標形象直觀、時效性強、準確度高,可以作為態勢要素感知的主要信息源。但對於圖像數據中物體目標的判別分析技術研究一直以來都未達到實際應用水平,圖像數據的複雜性和物體目標的不確定性是造成技術研究瓶頸的主要原因。在圖像目標數據智能識別研究領域,近幾年,深度學習技術的應用取得了突破性進展,引發了計算機視覺領域的革命性變革,引起了學術界及工業界的廣泛關注及研究。本文基於可見光圖像數據和雷達圖像數據研究深度學習技術在態勢感知系統中的應用,採用的深度神經網路模型為卷積神經網路(Convolutional Neural Network, CNN),通過實現卷積神經網路模型和以卷積神經網路為基礎的擴展模型,力圖解決態勢感知系統中針對圖像物體目標識別的精度不足及效率低下問題,為態勢感知系統中態勢要素感知任務的實現提供新的思路和解決方法,並為後續深度學習技術在該領域的應用提供參考。
首先,本文通過在基於GPU的高速計算平台上實現卷積神經網路模型完成圖像場景中物體目標的類別感知任務。根據計算平台配置,參考Image Net 挑戰賽中表現優異的卷積神經網路模型,在高效的深度學習工具Caffe 框架下對模型
進行實現。模型通過反向傳播演算法進行訓練,輸出層選擇Softmax 分類器進行類別鑒定輸出。使用模型對Cifar-10 數據集中的圖像數據進行分類處理,根據圖形化的分類結果分析模型處理圖像目標識別的有效性。然後,通過模型針對可見光圖像和雷達圖像的物體目標識別結果驗證模型用於態勢感知任務的可行性。
其次,在完成物體目標類別感知的基礎上,研究基於卷積神經網路的模型在目標位置感知任務中的應用,通過調研分析,選擇實現兩種圖像目標位置感知模型Fast R-CNN和Faster R-CNN。分別使用兩種模型針對可見光圖像和雷達圖像完成物體目標位置感知實驗,根據實驗結果,通過分析兩種模型在感知精度和感知效率方面的優劣,選擇 Faster R-CNN 模型完成目標位置感知任務。
最後,根據模型對可見光圖像和雷達圖像中態勢要素的類別和位置感知信息,分析圖像場景中的主體目標和密集分布目標,給出關於圖像場景的文字性描述,並根據系統設置,對圖像中存在的敏感目標進行標註,至此完成態勢感知系統第一階段的態勢要素感知功能。在此基礎上,研究態勢感知系統嵌入式平台實現的可能性,在NVIDIA Jetson TX1 開發板上完成了 Caffe 框架的配置和卷積神經網路模型的實現,通過驗證平台對模型的執行效率和針對 mnist 數據集的分類結果,分析態勢感知系統在嵌入式平台實現的可能性,為後續研究工作奠定基礎。
關鍵詞:態勢感知;卷積神經網路;目標識別;目標定位;嵌入式平台
Keywords: Situation Awareness; CNN; Faster R-CNN; Jetson TX1
第 1 章緒論
1.1 研究背景及意義
在不同的應用領域,態勢感知的定義有所不同,一般來說,態勢感知(Situation Awareness,SA),即對場景環境中存在的人們所關心的目標進行快速識別,綜合多方面信息對目標的當前狀態做出判斷,並預測其發展趨勢。
態勢察覺,即通過對當前環境中態勢要素(場景目標)的識別感知得到態勢要素的類別、位置、數量等信息。
態勢理解,即綜合各類感測器信息對態勢要素當前的性質及行為做出判斷。
態勢估計,則是在完成察覺和理解的基礎上對態勢要素的發展變化趨勢做出預測。
(註:目標檢測只是在態勢察覺階段,態勢察覺是態勢感知系統的基礎,也是實現整個態勢感知系統功能的關鍵。)但是針對圖像信息的目標感知識別存在較大困難:
一是圖像數據量龐大,包含的信息豐富,目標的結構性特徵明顯,現有的機器學習演算法在進行圖像目標識別時對特徵提取的要求較高,而根據人工設計的規則提取的特徵往往無法達到要求;
二是圖像場景的複雜性以及目標的多樣性對演算法的識別精度和感知模型的泛化能力提出了較高要求。
深層卷積神經網路在解決圖像識別問題方面有其獨特的優勢:
首先,深層神經網路模型具有優異的特徵自學習能力,深層神經網路結構通過逐層的非線性變換能夠實現複雜函數的逼近,可以由低層到高層分層次進行特徵表示,從而能夠學習到數據的高級抽象特徵,實現對輸入數據最本質的刻畫,相比於使用人工設計的規則提取的特徵,使用高級抽象特徵的分類器能夠以較高的準確率分辨不同類別的圖像目標。
其次,卷積神經網路的輸入為二維原始圖像數據,保留了圖像中目標的結構化特徵,避免了傳統識別演算法中複雜的特徵提取和數據重建過程,且其獨特的網路結構模擬了生物的視覺感知系統,通過局部感知與權值共享,降低了網路參數數量的同時使網路能夠容忍一定程度的目標位移、形變和比例縮放。
1.2 研究現狀分析
1.2.1 圖像態勢要素感知
圖像態勢要素感知
圖像目標識別的基本流程
基於圖像全局信息的特徵提取
基於局部信息的特徵提取(常用的局部特徵描述包括SIFT(Scale-invariant Feature Transform)特徵和 HOG(Histogram of Oriented Gradient)特徵等)
在完成特徵提取之後,需要使用分類器進行目標的類別劃分,在圖像目標識別領域,常用的分類器包括隨機森林和支持向量機(Support Vector Machine,SVM)等模式識別方法。
關於圖像目標識別的理論研究雖然已經形成了比較成熟的技術框架,但其識別效果仍未達到實際應用水平。首先,圖像數據像素之間存在一定的空間結構關係,圖像的紋理、輪廓等低層特徵不具有表示空間關係的能力。其次,圖像數據包含了豐富的目標信息,根據人工規則的特徵提取作為信息處理的第一步會在一定程度上造成信息丟失。最後,圖像數據往往包含複雜的背景環境,且在不同的圖像數據中同類目標的呈現角度、尺度等會有較大差異,這在很大程度上限制了目標識別的精度。
1.2.2 深度學習在圖像識別中的應用
深度學習(Deep Learning),即利用深度神經網路進行特徵學習,它是機器學習領域的一個新的研究方向。從本質上說,深度學習就是通過構建具有多個隱含層的人工神經網路模型,從海量的數據中學習更具表達性的特徵,從而提升模式識別的準確性。
多倫多大學的 Geoffrey Hinton 教授在《Science》文章中提到利用限制玻爾茲曼機(Restricted Boltzmann Machine, RBM)這一無監督方法逐層預訓練網路,使網路權重初始化到一個接近最優解的值,然後再利用BP
演算法這一有監督訓練方式微調權重參數使其達到最優值。
證明了兩個觀點:
一是包含多個隱含層的人工神經網路在特徵自學習方面具有出色的表現,網路學習到的特徵對原始數據具有更本質的刻畫,在不同類別數據之間具有很高的判別性;
二是深層神經網路在訓練上的困難可以通過對隱含層網路進行逐層初始化來有效克服,網路的逐層初始化可以通過無監督學習完成。
深層神經網路的優勢主要體現在其優秀的特徵學習能力。
深層網路不僅能夠自主學習特徵,而且學習到的特徵往往是最具有辨識力的。深層網路結構通過逐層的非線性變換,能夠實現複雜函數的逼近。從網路低層到高層的特徵表示越來越抽象,越來越能表現語義或者意圖。而抽象層面越高,存在的可能猜測就越少,特徵也就越具有辨識性。
在計算機視覺領域,卷積神經網路的各種深度網路架構介紹
1.3 主要研究內容
態勢感知第一階段的任務要求模型能夠對圖像中的態勢要素進行類別、位置、數量等多方面的識別感知,要完成該項任務,需要卷積神經網路模型完成三項內容:
一是圖像中目標的類別識別;
二是圖像中目標的位置檢測;
三是根據上述兩項感知結果對圖像中各類目標的數量及其分布情況進行統計分析,給出對圖像場景的文字性描述。
1.4 論文組織結構
論文第一章對課題背景及研究意義進行介紹,分別對態勢感知系統的重要性、圖像數據的豐富性、圖像信息分析的難度和深度學習在計算機視覺領域的有效性進行了描述,分析了圖像態勢要素感知和深度學習的研究現狀,並對本文的主要研究內容進行了闡述。
論文第二章主要介紹了用於圖像目標類別識別的卷積神經網路模型,對卷積神經網路的關鍵技術、訓練演算法和優化方法進行了介紹,並使用 cuda-convnet2模型針對 Cifar-10 數據集的圖像分類結果進行了模擬實驗,最後使用卷積神經網路模型分別對可見光圖像和雷達圖像完成了目標類別感知實驗。
論文第三章主要介紹了用於圖像目標位置感知的三種基於卷積神經網路的模型,對三種模型進行了分析對比,並使用 Fast R-CNN 模型和 Faster R-CNN 模型完成了針對可見光圖像和雷達圖像的目標位置感知實驗,根據實驗結果,對Fast R-CNN 模型和 Faster R-CNN 模型在目標位置感知中的性能進行了分析對比。
論文第四章的主要內容是基於卷積神經網路的態勢感知系統的整體介紹,對系統的兩項主要功能和系統的整體設計進行了描述,並整合第二章和第三章的實驗結果,分別對可見光圖像和雷達圖像完成了態勢感知第一階段的態勢要素察覺任務,最後對態勢感知系統的嵌入式平台實現進行了嘗試,對 NVIDIA Jetson TX1開發板進行了介紹,驗證了平台的執行效率,並在該平台上完成了卷積神經網路的目標分類實驗。
第 2 章圖像的目標類別感知
2.1 引言
2.2 圖像目標類別感知模型
基礎網路架構--在計算機視覺領域,卷積神經網路的各種深度網路架構
LeNet
AlexNet8提供了最基本的卷積神經網路架構,後續模型的設計實現均參考了Alex Net模型。
ZFNet(Clarifai) 8利用特徵可視化技術優化了Alexnet模型,通過反卷積技術對卷積層提取到的特徵進行了可視化,根據可視化結果對卷積步幅做出了調整,提升了模型在Image Net數據集上的精度。
VGGNet 16固定了Alex Net的其它層,依次增加卷積層個數,根據實驗結果將卷積層設定為16層。
GoogLeNet(InceptionNet) 22在網路的深度和寬度兩個層面上進行了調整Goog Le Net,模型將網路層數增加到了22層,為了避免梯度消失,將監督信號添加到了網路的不同深度處,Goog Le Net的另一個改進是在同一卷積層使用了不同大小的卷積核。
ResNet(MSRA) 152通過改進網路結構大幅度增加網路層數提升精度;MSRA模型通過在網路中引入殘差,在大幅度增加網路層數的同時抑制了訓練誤差。
2.2.1 卷積神經網路結構
通常來說,卷積神經網路包含三種網路層,卷積層、下採樣層和全連接層。
大部分模型的基本網路結構都是基於 Alex Net 模型。本文研究卷積神經網路在態勢感知領域的應用,驗證卷積神經網路在該領域的有效性,因此Alexnet進行感知實驗。
在卷積神經網路的實現過程中,存在兩個關鍵問題:
一是激活函數的選擇,
二是降低神經網路過擬合的優化方法,
針對關鍵問題一:
本文採用Re LU(Rectified Linear Units)修正線性單元作為神經網路的激活函數,其數學表達式為f(x)=max(0, x)。
相比於飽和的非線性函數,Re LU 非線性函數使得網路中一些神經元的輸出值為 0,增強了神經網路的稀疏性表示,減弱了神經元之間的相互依存關係,緩
解了過擬合問題。其次,Re LU 函數值沒有上界,在神經網路的訓練過程中允許較大的梯度值存在,從而加快神經網路的收斂過程。
針對關鍵問題二:
在卷積神經網路的應用過程中通常從兩方面降低網路的過擬合:
一是增加訓練數據量,也叫做數據增強;
二是對網路模型進行優化改進,如 Dropout方法。
降低圖像數據過擬合的最簡單也是最普遍的方法就是使用保留標籤的轉換方法人為地擴大訓練數據集。
對於圖像數據來說,一種擴展數據集的方法是在不改變圖像標籤的情況下對圖像進行平移和水平翻轉操作。
另一種擴展數據集的方式是改變彩色圖像 RGB 通道的強度,模擬圖像的光照強度及顏色的變化,以此增加數據的多樣性。
實踐證明,結合各個不同模型的預測結果可以有效降低錯誤率,但對於需要數天進行訓練的神經網路來說太奢侈。然而,有一種非常有效的模型結合方法,只需要原先兩倍的訓練時間,叫做Dropout。
該方法在神經網路的兩個全連接層中,按照50%的概率隨機選擇某些神經元將其輸出設為 0,這些神經元不參與卷積神經網路的前向傳播和後向傳播過程。這樣,每次有輸入時,網路隨機組成一個結構,最後所有的結構共享權值。Dropout 方法的使用減少了神經元之間的相互作用,迫使網路學習更具有魯棒性的特徵。此外,結合多個模型的預測結果可以有效地降低錯誤率。在測試過程中,兩個全連接層使用全部的神經元參與運算,只是最後的輸出結果乘以了 0.5。當然,Dropout 方法雖然有效地降低了過擬合,但也降低了網路的收斂速度,網路達到收斂的迭代次數增加了近一倍。
2.2.2 相關演算法原理
2.2.2.1 反向傳播演算法
神經網路的訓練包含前向傳播和反向傳播兩個過程,以數據分類為例,前向傳播過程從輸入開始經過逐層的特徵提取後輸出對輸入數據的類別劃分結果,將劃分結果與監督信號進行對比後計算分類誤差,然後將誤差反向傳播至網路的每一層,逐層修改每一個網路層的連接權重,實現參數調整。
2.2.2.2 Softmax 分類器
卷積神經網路的最後一層為分類器層,利用卷積層提取到的特徵對圖像中存在的目標進行類別劃分。本文使用的是softmax分類器。
2.2.3 模型模擬實驗
充分證明了卷積神經網路卓越的提取特徵的能力及其在圖像目標類別感知中的有效性。
2.3 圖像目標類別感知實驗
深度學習框架,降低了深度學習領域的研究門檻,主流的框架平台有 Caffe、Theano、Torch 以及 Tensor Flow 等,這些框架在模型部署、效能以及平台支持等方面各有優劣,用戶需要根據自身需要選擇合適的框架平台。
2.3.1 可見光圖像目標類別感知實驗
本實驗中所用圖像數據均來自 Image Net 公開數據集,該數據集包含超過1500 萬張帶標籤的高解析度圖像,這些圖像全部通過網路收集。一年一度的ILSVRC 挑戰賽採用 Image Net 的子集,包含上百萬張圖像,這些圖像被劃分為1000 個類別。本實驗抽取了 Image Net 數據集中的四類目標圖像,戰機、導彈、坦克和戰艦。
2.3.2 雷達圖像目標類別感知實驗
本實驗所用雷達圖像數據來自 MSTAR 資料庫
雷達圖像實現自動目標辨識需要經過四個步驟:圖像預處理、特徵提取、特徵選擇和目標分類,這四個步驟分別需要設計不同的演算法來實現。
實驗所用雷達圖像數據集中的目標圖像場景過於單一,目標處於圖像的中心區域且完整無損,所以實驗結果不排除過擬合的可能。但即便如此,與常規的雷達圖像目標類別感知方法相比,本文所用卷積神經網路模型無需複雜的圖像預處理過程,簡化了感知流程,在不損失感知準確率的條件下提高了感知效率。
2.4 本章小結
第 3 章圖像的目標位置感知
3.1 引言
R-CNN 模型是首次將 CNN 網路用於目標位置感知任務的模型,隨後在該模型之上發展起來的擴展模型 Fast R-CNN 模型和 Faster R-CNN 模型對R-CNN 的位置定位方法進行了改進,感知流程逐步得到了簡化,目標位置感知的效率不斷得到提升。
3.2 目標位置感知模型
卷積神經網路模型具有出色的提取圖像高級語義特徵的能力,因此將目標的候選區域提取與 CNN 類別感知模型相結合,是完成圖像場景中目標位置感知任務的理想解決方法。
3.2.1 基於 Ro I 區域的 R-CNN 模型
2014 年,為了消除卷積神經網路的固定輸入大小的限制,Kaiming He 等人提出了一種新的網路結構 SPP-net(Spatial Pyramid Pooling network)。
在 CNN 網路模型中,卷積層不需要固定的圖像大小,而且可以產生任意大小的特徵圖,而另一方面,根據其定義,全連接層需要固定長度的輸入,因此,卷積神經網路固定輸入大小的限制僅僅來源於位於網路深處的全連接層。
SPP-net 模型在 CNN 的最後一個卷積層之後第一個全連接層之前添加了一個空間採樣層,該層中包含多種尺度的採樣窗口,但每一種採樣窗口的大小都與最後一個卷積層中特徵圖的大小成比例,即無論輸入特徵圖的大小如何變化,經過該採樣層之後,輸入到全連接層的特徵維度是固定的。
Fast R-CNN 模型借鑒 SPP-net 網路提出了一個特殊的網路層 Ro I(Region of Interest),將在原圖上進行的目標候選區域的選取轉移到了特徵圖上
Ro I 層是 SPP-net 的空間採樣層的特殊實現形式,與 SPP-net 的不同之處在於 Ro I 層將最後一層特徵圖採樣到了一種固定尺度而非多種尺度。
Fast R-CNN 在訓練過程中首先採樣 N 張圖像,然後在每張圖像中採樣多個目標候選區域進行訓練,充分利用了特徵共享的優勢,可以使用 BP 演算法更新所有網路層參數。
3.2.2 基於 RPN 網路的 R-CNN 模型
Faster R-CNN 模型相較於 R-CNN 模型和Fast R-CNN 模型進行了演算法層面的改進,由深層神經網路完成目標候選區域的提取,使得相對於目標候選區域的類別感知時間來說,目標候選區域的提取時間可忽略不計。
Faster R-CNN 模型引進了與卷積神經網路模型共享卷積層的 RPN(Region Proposal Network)網路
卷積神經網路用於感知目標類別而生成的特徵圖也可以用來進行目標的定位。通過在最後一層卷積特徵圖的頂部添加兩個額外的卷積層來構建 RPN 網路,其中一個卷積層將每個卷積特徵圖上的滑動窗口區域編碼成一個短向量;另一個卷積層判定 k 種滑動窗口下的區域是否包含目標(區分目標和背景)並輸出區域的回歸坐標。
RPN 網路在產生目標候選區域方面的效率要遠遠高於 Selective search 方法,因此可以使用經 RPN 網路產生的目標候選區域訓練 Fast R-CNN 模型,以提高感
知效率,這便是 Faster R-CNN 模型的基本思想。
RPN 網路在產生目標候選區域方面的效率要遠遠高於 Selective search 方法,因此可以使用經 RPN 網路產生的目標候選區域訓練 Fast R-CNN 模型,以提高感知效率,這便是 Faster R-CNN 模型的基本思想。
3.3 目標位置感知實驗
本文在搭載了 NVIDIA GTX 980Ti GPU 的主機平台上對 Fast R-CNN 模型和 Faster R-CNN 模型進行了實現
3.3.1 可見光圖像目標位置感知實驗
綜上所述,在針對可見光圖像的目標位置感知任務中,Faster R-CNN 模型的感知結果和感知效率都超過了 Fast R-CNN 模型。
在一定範圍內,網路層數的加深可以提升模型的感知性能。
3.3.2 雷達圖像目標位置感知實驗
MSTAR SAR 數據集
實驗所用數據集中雷達圖像場景過於單一,所有圖像中目標的位置和大小均無太大差異,訓練數據的過於單一化造成了模型的嚴重過擬合問題。
根據實驗結果,相較於 Fast R-CNN 模型,Faster R-CNN 模型具有更高的目標位置感知準確率和目標類別感知準確率。
無論是從雷達圖像目標位置感知的精度還是感知的速度來說,Faster R-CNN 模型的性能都要優於Fast R-CNN 模型。
3.3.3 討論
Faster R-CNN 模型無論是從目標位置感知精度還是從目標位置感知效率方面來講都要優於 Fast R-CNN 模型,因此,本文選擇使用 Faster R-CNN模型來完成態勢感知系統的實現。
3.4 本章小結
第 4 章態勢感知系統設計及實現
4.1 引言
通過對圖像目標的類別感知,統計圖像中每一類目標的數量,確定圖像中每類目標的分布密集程度;通過對圖像目標的位置感知,計算每一類目標在圖像中所佔像素比,確定圖像中的主體目標,並對敏感目標進行位置定位。
4.2 系統功能描述
本文的態勢感知系統能夠實現兩個主要功能:
一是根據感知到的圖像中目標的類別和其具體位置,經過統計計算,分析出圖像場景中的主體目標和密集分布目標,並給出關於圖像場景中目標信息的文字性描述;
二是根據感知結果,對研究人員設定的興趣目標進行敏感目標標註。
4.3 態勢感知系統設計
根據系統功能描述,本文中態勢感知系統實現的關鍵在於目標的類別感知和位置感知兩項內容。
4.3.1 平台配置
自深度學習誕生以來,大部分深度神經網路模型的實現都需要GPU(Graphic Process Units)這樣的硬體計算加速平台。
4.3.2 框架選擇
4.4 態勢感知系統實現
4.5 CNN 模型的嵌入式平台驗證
嵌入式 GPU 平台 Jetson TX1 上完成了 CNN 模型的實現
深度學習為多個技術領域和相關行業提供了解決問題的新思路,並在不同程度上促進了行業的發展,引發了多個領域的革命性變革。目前,深層神經網路的性能已受到廣泛認可,不同領域的研究人員也在不斷嘗試使用並進一步發展深層神經網路模型,以使其適用到自身的研究領域。目前的研究現狀是深層神經網路技術已被證明可以適用到多個領域,在這些相關領域,深層神經網路模型能夠突破技術瓶頸,發揮出色的性能,但是這些領域的相關研究目前大多數只處於實驗室研究階段,離深層神經網路在該領域的產品化實現還有一定的距離。
4.6 本章小結
結論
根據研究內容,對本文的研究結論如下:
(1)深度學習技術可以用於態勢感知系統中的態勢要素察覺任務,且其感知精度和感知效率均達到了較高水平。
(2)在圖像目標位置感知任務中,Faster R-CNN 模型的感知效果優於 Fast R-CNN 模型。
(3)深度學習技術針對雷達圖像的目標感知也是有效的。


TAG:paper大講堂 |