當前位置:
首頁 > 最新 > 伍廣明:基於U型卷積神經網路的航空影像建築物檢測

伍廣明:基於U型卷積神經網路的航空影像建築物檢測

《測繪學報》

構建與學術的橋樑 拉近與權威的距離

基於U型卷積神經網路的航空影像建築物檢測

伍廣明1, 陳奇1,2, Ryosuke SHIBASAKI1, 郭直靈1, 邵肖偉1, 許永偉1

1. 東京大學空間信息科學研究中心, 日本 東京 113-8657;

2. 中國地質大學(武漢)信息工程學院, 湖北 武漢 430074

收稿日期:2017-12-12;修回日期:2018-03-25

摘要:經典的卷積神經網路結構在前向傳播過程中解析度不斷下降,導致僅採用末層特徵時難以實現建築物邊緣的精確分割,進而限制目標檢測精度。針對該問題,提出一種基於U型卷積網路的建築物檢測方法。首先借鑒在圖像分割領域中性能出色的神經網路模型U-Net的建模思想,採用對稱式的網路結構融合深度網路中的高維和低維特徵以恢復高保真邊界;其次考慮到經典U-Net對位於特徵金字塔頂層的模型參數優化程度相對不足,通過在頂層和底層兩個不同尺度輸出預測結果進行雙重約束,進一步提升了建築物檢測精度。在覆蓋範圍達30 km2、建築物目標28 000餘個的航空影像數據集上的試驗結果表明,本文方法的檢測結果在IoU和Kappa兩項關鍵評價指標的均值上分別達到83.7%和89.5%,優於經典U-Net模型,顯著優於經典全卷積網路模型和基於人工設計特徵的AdaBoost模型。

關鍵詞:航空影像建築物檢測卷積神經網路U型卷積網路特徵金字塔

High Precision Building Detection from Aerial Imagery Using a U-Net Like Convolutional Architecture

WU Guangming1, CHEN Qi1,2, Ryosuke SHIBASAKI1, GUO Zhiling1, SHAO Xiaowei1, XU Yongwei1

Abstract: Automatic identification of the building target and precise acquisition of its vector contour has been an urgent task which is at the same time facing huge challenges.In recent years, due to its ability of automatically extracting high-dimensional abstract features with extremely high complexity, convolutional neural network (CNN) have made considerable improvement in this research area, and strongly enhanced the classification accuracy and generalization capability of the state-of-art building detection methods.However, the pooling layers in a classic CNN model actually considerably reduce the spatial resolution of the input image, the building detection results generated from the top layer of CNN often have coarse edges, which poses big challenges for extracting accurate building contour.In order to tackle this problem, an improved fully convolutional network based on U-Net is proposed.First, the structure of U-Net is adopted to detect accurate building edge by using a bottom-up refinement process.Then, by predicting results in both top and bottom layers with the feature pyramid, a twofold constraint strategy is proposed to further improve the detection accuracy.Experiments on aerial imagery datasets covering 30 square kilometers and over 28 000 buildings demonstrate that proposed method performs well for different areas.The accuracy values in the form of average IoU and Kappa are 83.7% and 89.5%, respectively; which are higher than the classic U-Net model, and significantly outperforms the classic full convolutional network model and the AdaBoost model trained with low-level features.

Key words:aerial imagerybuilding detectionconvolutional neural networkU-Netfeature pyramid

從遙感影像中自動識別建築物目標並獲取其精確邊緣輪廓信息,一直是數字測圖實現自動化和智能化的重要努力方向。在深度學習技術的復興熱潮到來之前,絕大部分面向遙感影像的建築物檢測方法可歸類為一種從人工設計特徵出發的分類方法,其特徵建模依賴於人類對建築物的觀察、理解和歸納。在此基礎上形成的方法可區分為知識引導、模板匹配及監督分類3類:知識引導類方法主要通過建立知識約束將對象檢測問題轉化為假設測試問題,典型的知識約束包括建築物的幾何輻射特性、矩形約束[1]、棱形約束[2],以及建築物與陰影的伴生關係[3-4]等;模板匹配方法基於明確的模板參數對建築物進行描述,再通過人工設置或樣本訓練的方式獲取這些參數,最後採用一定的搜索方法,並以相關度最大為原則來確定最佳匹配結果[5-6];監督分類方法一般針對建築物的特點設計數據特徵,然後進行特徵提取並利用樣本數據進行分類器訓練,最後使用支持向量機[7]、Adaptive Boosting(AdaBoost)[8]、隨機森林[9]、條件隨機場[10]等分類器對測試數據中的特徵進行分類,進而從分類結果中獲取建築物檢測結果。然而,受制於建築物結構、紋理複雜多樣,以及不同數據中光照、解析度和成像質量的變化,依賴人工設計往往很難對各種成像條件下的建築物特徵進行準確概括,從而導致基於人工設計特徵的傳統方法普遍缺乏對不同數據的泛化能力。

近年來,隨著計算機硬體水平的發展和超大規模學習樣本的出現,以卷積神經網路(convolutional neural network,CNN)[11]為代表的深度學習技術在計算機視覺領域的目標檢測和分類應用中表現出強大性能[12],大幅提升了該領域的演算法精度水平。由於CNN能夠自動學習和生成複雜度極高的非線性特徵,突破人工設計的局限性,因而迅速在建築物檢測問題上得到應用。早期的應用思路主要基於經典CNN模型,即在影像中取以單像素為中心的圖像塊為模型輸入,並對其進行特徵建模,進而確定每個像素的類別[13-14],不過當推廣至大批量處理時,這種方法的內存開銷將急劇增加,處理效率也將明顯下降。全卷積網路(fully convolutional network,FCN)[15]的提出很大程度上改進了這個問題,該模型通過去除經典CNN中的全連接層,並對末層特徵進行反卷積(上採樣)操作生成與輸入圖像解析度一致的輸出層,可以高效地實現圖像的像素級分類。目前FCN模型已經在建築物檢測方面得到較多應用[16-18]。此外,顧及CNN的前向傳播過程中解析度不斷下降,僅採用末層特徵生成的分割結果往往邊緣精度偏低,後續許多面向圖像分割的模型進一步對FCN這種端對端的思想進行了擴展,這其中有代表性的包括SegNet[19]、DeconvNet[20]以及U-Net[21]等。以本文關注的U型卷積神經網路U-Net為例,該模型不僅實現了輸出層的解析度一致性,還通過對稱式的結構設計融合了CNN網路中的低維和高維特徵,在醫學圖像上達到了更高精度的分割效果。

基於上述分析,本文以一個大覆蓋範圍的航空影像數據集作為研究對象,提出一種基於改進U-Net模型的建築物檢測方法。本文貢獻主要體現在兩點:首先,將U型卷積網路的設計思想應用於遙感影像建築物檢測處理中,設法融合卷積網路中的高維和低維特徵以恢復高保真建築物邊界;其次,提出一種雙重約束的改進U-Net模型,以加強網路在抽象層面識別建築物的能力,從而進一步提升檢測精度。

1 方法

CNN在遙感影像建築物檢測方面的應用目前仍處在較早的階段,本節將首先對FCN模型和U型卷積網路在圖像分割中的應用思路進行簡要介紹,然後介紹本文提出的雙重約束的改進U型卷積網路,最後對基於改進U型卷積網路的建築物檢測流程進行闡述。

1.1 全卷積神經網路(FCN)和U型卷積網路(U-Net)

文獻[17]提出了一種全卷積思想的FCN模型[17],其主要目的在於改善經典CNN模型在圖像語義分割問題上的應用表現。在此之前,CNN模型已經在目標分類領域取得了最先進的分類精度水平,但這種經典模型結構一般只適用於圖像級的分類和回歸任務,其網路通常會在若干個卷積層和池化層之後連接多個全連接層,從而將卷積層中生成的特徵映射為一個N維向量,以表徵輸入圖像屬於N個類別中每一類的概率。

然而對於包括遙感影像建築物檢測在內的語義分割問題而言,需要獲取的是圖像中每個像素的分類結果。儘管經典CNN模型通過以單個像素為中心取圖像塊,然後基於圖像塊進行特徵建模的方式可以實現像素級的圖像分類,但由於相鄰圖像塊的高度重疊將引入大量的數據冗餘,這種方法往往非常耗時。此外,圖像塊大小的選取還將面臨兩難問題:窗口過大將導致內存開銷劇增,增加計算負擔;窗口較小則無法掌握大型目標的上下文信息,造成識別困難。

鑒於此,FCN模型對經典CNN做出了針對性改進。如圖 1所示,相比經典模型的網路結構,FCN的最大區別是在末端的卷積層之後不再使用全連接層生成固定長度的特徵向量,而是採用反卷積層對前端卷積層生成的高維特徵圖進行上採樣,使之恢復至與輸入圖像相同的解析度。改進後的網路模型有效保留了輸入圖像的空間信息,可以實現對每個像素都產生一個預測結果,同時因為省去了經典CNN應用中複雜的逐窗口計算過程,圖像分割的處理效率也得到大幅提升。

儘管在FCN的網路結構中進行一次反卷積操作就可以生成原圖大小的輸出層,但得到的分割結果往往過於平滑,許多細節無法還原。這主要是由於在生成最後的特徵圖之前輸入圖像經歷了多次池化處理,這一方面使得末端的神經元能夠接收更大範圍圖像的信息,即更大的感受野,另一方面卻也導致許多圖像細節丟失,從而無法精確地提取目標輪廓。FCN模型就此提出的解決方案是嘗試將特徵金字塔中更低層的特徵與反卷積後的上採樣結果進行融合併加以運用,試驗證實這種方法確實可以提高分割精度。

U-Net模型則進一步擴展了FCN模型中這種高維與低維特徵融合的思想。如圖 2所示,在U-Net的網路結構中,輸入圖像首先經過若干個卷積層和池化層得到解析度較低的高維特徵圖(過程中形成一個從低維到高維的特徵金字塔),隨後通過一系列反卷積層逆向進行多次上採樣,生成與原有特徵金字塔逐級對應的特徵圖,最終輸出與輸入圖像解析度一致的像素級預測結果。在對高維特徵圖進行上採樣的過程中,每進行一次反卷積操作,特徵圖的維度均會減半,而在進行下一次上採樣之前,這些被降維的特徵將會通過矩陣級聯的方式與特徵金字塔中對應層級的特徵圖進行融合,融合後的特徵不僅包含了金字塔頂層的抽象數據,還注入了低層各級中提取的細節信息。若將金字塔倒置,這種對稱式的網路結構在形態上接近一個「U」型,U-Net因此得名。

1.2 雙重約束的改進U型卷積網路

與FCN以及大部分用於圖像分割的CNN模型相同,U-Net模型的訓練方式主要是通過卷積網路中的末層特徵數據輸出與原圖解析度相同的預測結果,然後利用預測結果與真值圖構建損失函數,再通過反向傳播演算法對模型參數進行迭代更新。根據反向傳播演算法的原理,卷積網路中最靠近輸出結果的參數將優先得到更新,其他參數的更新幅度隨著傳播距離拉長將會逐漸衰減。然而在U-Net模型中,其輸出結果由金字塔底層特徵(包括卷積和反卷積過程中生成的兩部分特徵數據)直接產生,這就導致該模型在訓練整個網路結構時偏重於低層的參數更新,位於特徵金字塔頂層的相關參數優化程度相對較差。據此,本文通過對頂層特徵引入額外的損失約束,提出一種雙重約束的改進U-Net網路結構。如圖 3所示,在雙重約束的U-Net模型中,損失函數由主要損失和次級損失兩部分構成,前者用於約束最終輸出結果與真值圖的損失值,後者則首先利用頂層特徵生成低解析度的預測結果,再對其與相應低解析度的真值圖的損失值進行約束。這種網路結構能夠在一定程度上平衡計算資源的分配,使得不同層級的模型參數均得到較好的優化。

遙感影像建築物檢測的本質是一個二值化圖像分割任務,因此相對於多類別的圖像分割應用,本文在U-Net的末層無須建立Softmax回歸模型,只需選用Sigmoid函數作為激活函數即可

(1)

式中,x為激活函數的輸入,由U-Net網路中的前向傳播計算所得;S(x)為表徵當前像素被識別為建築物對象的概率值,其值域為(0,1)。

進一步地,可採用對數損失函數描述訓練樣本中預測值與真值的差異

(2)

式中,L(x)為訓練樣本的總損失值;m為總樣本個數;L(xi)為單個像素的損失值;xi和yi分別對應各個像素的輸入特徵和類別標籤。式(2)中yi取值為0或1,當預測值S(xi)與yi接近或相同時,L(xi)趨近或等於0;反之當S(xi)與yi差值增大時,L(xi)趨近於無窮大。因此,通過最小化L(x)可以對模型參數進行訓練。

而對於雙重約束的U-Net模型,由於增加了一項次級損失,其最終損失函數可表示為

(3)

式中,Lmain(x)和Lsub(x)分別為基於金字塔底層和頂層特徵的輸出結果構建的損失函數,α和1-α分別為賦予二者的權重。

1.3 基於改進U型卷積網路的建築物檢測

圖 4所示為本文基於改進U-Net模型的遙感影像建築物檢測處理流程。通過將試驗數據劃分為訓練區域和測試區域進行分開處理,該流程可以區分為與之對應的兩個階段。

訓練階段:

(1) 按一定格網間距將訓練區域的遙感影像劃分為大小相同的子圖像,並生成與之對應的真值圖,同時為避免正負樣本分布過於不均,將其中建築物像素佔比過低的子圖像去除,餘下數據按一定比例劃分為訓練數據集和驗證數據集。

(2) 對訓練數據集中的地面真值作降採樣處理,分別用於建立主要約束和次要約束,採用反向傳播和隨機梯度下降演算法對模型進行訓練,得到模型參數。

(3) 基於訓練後的模型對驗證數據集進行測試和精度評價,根據評價反饋對模型超參數進行調試和結構優化,然後重複步驟(2),直至模型性能穩定後生成最終模型參數。

測試階段:

(1) 取一定大小的窗口對測試區域的影像進行逐窗口掃描,將每次掃描的子圖像輸入模型,輸出預測結果,得到建築物與非建築物的二值分割圖像;

(2) 對二值分割圖進行形態學開運算和閉運算處理,以填充建築物內部可能形成的微小空洞,同時去除面積過小的非建築物對象,得到最終的檢測結果,並結合真值數據進行精度評價。

2 試驗與分析2.1 試驗介紹

大規模的學習樣本是支撐深度學習模型發揮高性能的基礎。本文以紐西蘭地區覆蓋面積達30 km2的大批量航空影像作為試驗數據,其中包含人工標註的建築物對象28 915個。在用於試驗之前,航空影像已經過正射糾正和無縫拼接處理,正射影像地面採樣解析度為0.075 m。如圖 5所示,試驗區域被劃分為面積相等的訓練區域和測試區域,分別包括14 510和14 405個建築物對象。同時為了評估模型對不同類型區域的建築物檢測能力,測試區域被進一步劃分為4個子區域。其中區域1建築物佔比較低,包括大面積農田和一個小型湖泊;區域2和區域3建築物佔比適中,混雜部分農田;區域4包含了較多大型工廠。

通過將訓練區域的影像均等劃分為224×224像素的子圖像,並將其中建築物佔比低於10%的去除,得到包含17 996張圖片的子圖像集及其對應地面真值圖。該子圖像集將按照7:3的比例隨機分配到訓練數據集和驗證數據集中用於模型訓練和調試。比較試驗中,分別選用FCN、U-Net及本文提出的改進U-Net 3種CNN模型進行訓練和測試,其中改進U-Net模型中令主要損失和次級損失的權重相等,即取α=0.5,訓練階段3種模型的迭代次數均設置為100次。此外,為了與人工設計特徵驅動的傳統分類方法進行對照,同時選用圖像分類領域性能較強的HOG(histogram of oriented gradient)特徵[22]和AdaBoost模型[23](簡稱HOG-Ada模型)實施對比試驗。

2.2 試驗結果及比較分析

圖 6所示為4種模型在4個試驗子區域中建築物檢測的全局評價結果,其中綠色和黑色分別表示正確檢出的建築物和背景像素,紅色和藍色分別表示誤檢和漏檢的建築物像素。從圖中可以看出,儘管HOG-Ada模型在區域1的湖泊處達到了更好的甄別效果,但是其總體識別精度明顯低於其他方案,對於道路目標的誤檢尤為嚴重。與之對應的是,其他3種CNN模型則均可以正確識別出大部分建築物對象,在建築物密集分布的地區(區域2、3)識別效果相對更好;在有效區分建築物和道路方面,U-Net及改進U-Net相比FCN性能更優,區域3、4的結果反映了FCN在部分主幹道附近發生了較多誤檢,而這種情況在另二者的結果中並未出現;改進U-Net模型與經典U-Net整體上看檢測效果十分接近,二者區別更多在於對建築物邊緣細節的提取精度;3種模型在區域1的大型湖泊處均出現了大面積誤檢,其主要原因是在目前的模型訓練中缺乏足夠多的湖泊類型的負樣本作為輸入。

圖 7所示為隨機選取的若干放大到接近原始解析度的局部評價結果,從中可看出HOG-Ada模型基本不具備準確檢出建築物形態的能力,誤檢和漏檢現象均較為突出,且存在明顯的椒鹽效應。而在其他CNN模型的檢測結果中:對於形狀較規則且無遮擋的建築物(如(b)列和(d)列),3種模型都能實現高精度檢測;(a)、(f)和(h)列中,U-Net與改進U-Net相比FCN更好地控制了建築物邊緣處的誤檢或漏檢;(c)、(e)和(g)列中由於樹木的遮擋,3種模型的檢測精度均明顯下降,但改進U-Net相比經典U-Net效果更好;(a)、(c)和(g)列中,U-Net的檢測結果內部均形成了漏檢空洞,而改進U-Net則未出現這種情況,這說明次級損失函數的約束有效加強了網路在抽象層面對建築物的整體識別能力。

定量評價方面,交並比(intersection over union,IoU)和檢測準確率(pixel accuracy)[22]是圖像分割領域較通用的兩項指標,分別表示檢測結果的整體精度水平和其中正確部分所佔比例係數,其計算公式如下

(4)

式中,TP表示正確檢測(true positive);FP表示錯誤檢測(false positive);FN表示遺漏檢測(false negative)。

除了以上兩項指標,本文同時採用遙感分類應用中常用的指標Kappa[23]對4種模型的測試結果進行了評價。從表 1中可以看出,HOG-Ada模型在各項指標上均全面落後於其他3種CNN模型,U-Net模型在4個測試區域和3個評價指標上均明顯優於FCN模型,而本文提出的改進U-Net模型則在U-Net的基礎上進一步實現了全面提升。從反映模型綜合性能的關鍵指標IoU和Kappa的均值來看,U-Net模型相比FCN模型分別提升了7.3%和5.5%,而改進U-Net則將經典模型的水平進一步提升了2.5%和1.8%。

表 1建築物檢測定量評價結果比較Tab. 1The quantitative evaluation results of building detection for different methods

表選項

效率方面,以一台裝有64位Ubuntu系統、配備NVIDIA GeForce GTX 1070 GPU的ASUS工作站為試驗平台,訓練階段的耗時與模型複雜程度成正比,FCN、U-Net和改進U-Net模型分別耗費5.75 h、10.29 h和10.65 h,測試階段3個模型在4個子區域(覆蓋面積3.75 km2,含33 000×20 000像素)的平均耗時分別為207 s、208 s和250 s。總體而言,改進後的U-Net模型並未明顯增加演算法的時間開銷,儘管模型的訓練與調試相對耗時,但模型固化後,測試階段的效率水平表現出了一定的應用潛力。

2.3 雙重約束之權重分析

為了進一步分析雙重約束對U型卷積網路的性能影響,本文通過對主要損失和次級損失設置不同大小的權值,即分別取α為0.125、0.25、0.5、0.75和0.875進行了多組試驗。如圖 8所示為使用不同權值的建築物檢測結果在IoU、檢測準確率和Kappa 3個指標上的性能表現。從中可以看出,3項指標反映出相似的變化趨勢:①當α在區間[0.25,0.75]之間變化時各指標波動較小,且均維持在較高的水平,這說明雙重約束的U-Net模型對權值的選取並不敏感;②當α取值在區間[0.25,0.75]之外時,3項指標均顯著下降,這充分體現了本文提出的雙重約束對於保障模型性能的必要性;③α偏低的情況相較其偏高的情況表現更差,肯定了在卷積網路中主要約束相對於次級約束的重要性。

3 結論

本文將U型卷積神經網路的設計思想應用於航空影像建築物檢測,有效融合了深度卷積網路中的高維和低維特徵,實現了建築物目標的高精度提取。此外,顧及經典U-Net模型對位於特徵金字塔頂層的相關參數優化程度相對不足,本文進一步提出了一種雙重約束的改進U-Net模型,即通過聯合主要和次級損失構建代價函數,增強了模型對低維抽象特徵的學習能力。通過在一個覆蓋範圍達30 km2、含建築物對象28 000餘個的大規模航空影像數據集上進行比較試驗,證實了本文提出的改進U-Net模型能夠在IoU和Kappa兩項關鍵評價指標的均值上分別達到83.7%和89.5%,其表現優於經典U-Net模型,顯著優於全卷積網路FCN模型和基於人工設計特徵HOG的AdaBoost模型。後續研究中將進一步擴大試驗區域,並在模型訓練中針對性地增加湖泊、雪地等負樣本,以提升對此類非建築物對象的判別能力。

【引文格式】伍廣明, 陳奇, Ryosuke SHIBASAKI, 等. 基於U型卷積神經網路的航空影像建築物檢測[J]. 測繪學報,2018,47(6):864-872. DOI: 10.11947/j.AGCS.2018.20170651

權威 | 專業 | 學術 | 前沿

微信公眾號中搜索「測繪學報」,關注我們,長按上圖二維碼,關注學術前沿動態。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 測繪學報 的精彩文章:

唐新明:雷達衛星自動成圖的精密干涉測量關鍵技術

TAG:測繪學報 |