當前位置:
首頁 > 最新 > 熊艷:機載LiDAR點雲數據降維與分類的隨機森林方法

熊艷:機載LiDAR點雲數據降維與分類的隨機森林方法

《測繪學報》

構建與學術的橋樑 拉近與權威的距離

機載LiDAR點雲數據降維與分類的隨機森林方法

熊艷1, 高仁強2, 徐戰亞1

1. 中國地質大學(武漢)信息工程學院, 湖北 武漢 430074;

2. 北京大學遙感與地理信息系統研究所, 北京 100871

收稿日期:2017-07-21;修回日期:2017-11-28

摘要:探索自動化的激光點雲分類方法對於三維建模、城市土地分類、DEM製圖等應用具有重要作用。考慮到現有的點雲分類演算法在提取依賴鄰域結構的特徵參數時面臨鄰域尺度的選擇難、數據維度高、計算複雜,並且缺乏對分類特徵參數的重要性評估和選擇等問題,本文提出了基於隨機森林的機載LiDAR點雲數據降維與分類方法。在分析點雲數據的高程、回波、強度等屬性特徵的基礎上,提取歸一化高度、高度統計量、表面特徵、空間分布特徵、回波特徵及強度特徵6大類特徵參數,並構建多尺度特徵參數,運用隨機森林的特徵選擇演算法對分類特徵集進行優化,然後進行點雲分類。試驗結果表明,基於隨機森林的特徵選擇方法可以有效地降低特徵維度,並且使得總體分類精度達到94.3%(Kappa係數為0.922),相比於使用全部特徵分類和SVM分類方法而言,該方法的總體分類精度均有一定程度的提高;特徵的重要性度量結果表明,歸一化高度特徵在點雲分類中所起的作用最大。

關鍵詞:機載激光雷達特徵選擇點雲分類隨機森林

Random Forest Method for Dimension Reduction and Point Cloud Classification Based on Airborne LiDAR

XIONG Yan1, GAO Renqiang2, XU Zhanya1

Abstract: Exploring automatic point cloud classification method is of great importance to 3D modeling, city land classification, DEM mapping and etc.To overcome the problem that extracting geometric feature for point cloud classification involved neighbor structure meets the challenge that the optimal neighbor scale parameter, high data dimension and complex computation, lacking efficient feature importance analysis and feature selection strategy, this paper proposed a point cloud classification and dimension reduction method based on random forest.After analyzing the characteristic of elevation, intensity and echo of laser points, this paper extracted a total of 6 feature types like normalized height feature, height statistic feature, surface metric feature, spatial distribution feature, echo feature, intensity feature, then built a multi-scale feature parameter from them.Finally, a supervised classification was conducted using a random forest algorithm to optimal the feature set and choose the best feature set to classify the point cloud.Results indicate that, the overall accuracy of the proposed method is 94.3% (Kappa coefficient is 0.922).The proposed method got an improvement in the overall accuracy when compared with no feature selection strategy and SVM classification strategy; The feature importance analysis indicates that the normalized height is the most important feature for the classification.

Key words:LiDARfeature selectionpoint cloud classificationrandom forest

機載LiDAR技術作為一種全新的測繪技術,具有快速獲取大範圍、高密度、高精度的地面信息的優勢,已在城市規劃、地形製圖、自然災害監測方面得到廣泛應用[1-2]。點雲分類是激光點雲數據後處理的一個重要環節,也是目前攝影測量與遙感領域的重要研究方向之一[3]。在實際的點雲分類應用中,受點雲的雜訊、離散性、密度的不均勻性以及地物形態的多樣性等因素的影響,自動化、高精度的點雲分類依然面臨著巨大挑戰。

目前的點雲分類方法主要有以下幾種解決思路。①將LiDAR點雲內插生成高程或者強度影像,然後從圖像中提取一些基本的統計特徵參數並採用基於像素或者對象的分類方法進行地物分類[4-7]。這種方式雖然能取得較好的效果,但是內插會帶來計算誤差,而且將三維點雲轉為二維柵格數據來處理有信息損失。②直接根據點雲的三維空間信息選擇合適的空間鄰域結構,鄰域的選擇形式包括K近鄰、球體鄰域、圓柱體鄰域或立方體鄰域,然後提取反映地物類型差異的幾何特徵參數,並藉助相關的機器學習演算法進行分類[8-10]。這種方法的難點在於鄰域的確定受空間鄰域尺度的影響。對於最佳空間鄰域尺度的確定,大多學者是通過反覆的嘗試或者憑藉經驗獲得,可指導性不強,也有學者嘗試採用多尺度的方式解決,但是不加篩選的添加鄰域尺度將導致特徵維數的急劇增大,給數據處理帶來巨大負擔。③將點雲分類轉為多次的目標探測與分離,通過設定一系列的目標識別規則逐步減少分類數量,從而實現點雲分類[10-11]。這種方法的不足之處在於誤差存在傳遞與累積,導致分類結果具有很大的不確定性,而且過程比較繁雜,尤其是地物類型比較多的情況。④基於高度紋理的分類方法,該方法先將點雲的高程信息內插生成高度影像,然後提取高度紋理特徵(如變異係數、二階矩、熵等)並應用遙感影像分類演算法進行分類[10-11]。該方法要求預先設定的地物類別的高度特徵存在明顯差異,而且對分類地物的先驗知識具有較高要求,單獨依靠紋理信息進行分類精度不高,需要強度以及幾何特徵信息的輔助。⑤對全波形機載點雲的全波形信息進行分解,然後提取波形特徵參數(如回波率、後向散射係數、振幅、波寬等)以及高程特徵進行分類[1,13-15]。該方法對數據源的要求較高,目前通過波形信息來量化地物的空間形態差異還存在很多難點,尤其是植被或者建築物都具有多回波特徵,波形的差異不明顯,一般需要結合其他特徵參數才能取得比較好的效果[16]。

儘管學者們提出了多種多樣的特徵參數用於點雲分類的研究,但是缺乏對特徵參數的選擇過程。如果直接將所有的特徵參數用於構建分類器,一方面樣本數據的特徵維度較高導致計算開銷大、運算時間長,另一方面無關特徵的加入會使得分類器精度下降,而且對不同特徵作用於地物分類效果的重要性程度分析不夠,導致特徵參數與目標地物之間的耦合關係缺乏深刻認識。

本文在前人研究的基礎上,提出一種基於隨機森林的點雲數據降維與分類方法。該方法不需要點雲內插,直接以點雲數據為核心:首先,通過分析城區目標地物的高度特徵、幾何特徵、回波特徵以及強度特徵的差異並提取分類特徵參數;其次,對於其中依賴於鄰域結構的特徵參數,本文引入多尺度分析的概念,構建多尺度特徵以克服空間鄰域尺度選擇難的問題;然後,基於隨機森林演算法進行特徵選擇和點雲分類;最後,從特徵選擇效果、分類精度以及特徵變數的重要性3個方面進行模型效果評價。

1 數據描述

研究區域位於芬蘭中部城市Jyv?skyl?(62°14.5′N,25°44.5′E),數據來源於TerraSolid官方網站提供的訓練數據(http://www.terrasolid.com/training/training_data.php)。LiDAR數據的獲取時間為2011年,藉助無人機搭載的激光掃描儀系統在城市上方飛行獲得,其中包含7條航帶的數據,點雲密度平均為17 points/m2。本文選取質量較好且覆蓋城市主要設施的點雲作為試驗數據,其坐標系已由WGS-84橢球投影變換至UTM坐標系,覆蓋範圍大約為2100×400 m2,包括14 784 484個激光點數據(圖 1),原始點雲的基本屬性包括三維坐標、激光強度、掃描角、回波總數及回波次數等信息。結合點雲數據的特點以及區域內地物類型的幾何形態差異,本文將研究區內的地物類型分為地面、建築物與其他3種。

2 研究方法

本文的試驗流程如下:首先對LiDAR點雲進行去雜訊處理;然後選取訓練樣本提取多尺度特徵參數,構建分類特徵集;再採用RFFS演算法進行特徵選擇,並將特徵選擇得到的結果用於隨機森林模型的構建;最後應用於測試集對分類和精度進行評價。

2.1 點雲數據去噪

由於激光脈衝的折射或者多路徑效應,原始點雲存在許多雜訊點數據,這部分雜訊信息可以通過目視加以剔除;另外點雲中也存在少量的高程粗差點,通過設置合適的搜索半徑閾值R(如0.5 m),然後逐個計算當前搜索點的高程與該點所在半徑R內的鄰域點的高程平均值的差值,並按照差值不超過3σ原則將粗差點識別出來,最後加以刪除。

2.2 特徵提取

2.2.1 歸一化高度特徵

基於布料模擬演算法[17]對去噪點雲構建柵格化的DTM模型,由於試驗區域的地形存在較大的起伏,兼顧計算機的運算能力,本文設置布料模擬演算法輸出的DTM柵格大小為0.8 m,迭代次數為500,布料的硬度係數為2,且進行坡度後處理。點雲中的某一點到該點投影所在的DTM柵格內的高程值之差就是該點的歸一化高度(normalized height, NH),如圖 2所示。該特徵在區分地面點和非地面點方面具有很好的效果,如建築物離地面的高度通常較高且比較有規律,而其他地物的高度特徵則比較複雜。

2.2.2 高程統計特徵

該特徵主要表達的是不同地物的高程屬性分布特點。假設整個三維點雲構成的點集為

當前計算點為

則以該點為中心半徑為R的鄰域點集可表示為

從當前點和鄰域點共同構成的點集中通過統計分析提取高程統計量,本文使用的高程統計量包括極差、標準差、峰度和偏度。

(1) 高程極差Hr。高程極差的數學形式為

(1)

(2) 高程標準差HSTD。高程標準差的數學形式為

(2)

(3) 高程峰度Hskw。高程峰度的數學形式為

(3)

(4) 高程偏度Hkur。高程偏度的數學形式為

(4)

式(1)—(4)中,zi是第i個鄰域點的高程;z表示當前點和鄰域點共同構成的點集的平均高程。

2.2.3 表面相關特徵

表面相關特徵主要體現不同地物在平面上的起伏差異,包括平面粗糙度(N)、平面極差(Sr)、平面標準差(SSTD)、平面法向量與豎直方向的夾角(Sn)。如圖 3所示,對當前點和鄰域點共同構成的點集用一個平面進行擬合,使得所有點到該平面的距離的平方和最小,計算當前點到該平面的距離即為粗糙度,所有點到該平面的距離的最大差值即為平面極差,所有點到該平面的距離的標準差為平面標準差。通常植被的粗糙度最大,地面次之,建築物最小;另外地面和建築物屋頂的平面標準差較小,而植被的平面標準差較大;建築物屋頂的法向量與豎直方向的夾角比較小且固定,而地面點的變化較大,植被點的變化則非常大。

2.2.4 空間分布特徵

空間分布特徵主要描述當前點在鄰域點內服從一維、二維、三維空間分布的程度。首先對當前點和鄰域點共同組成的點集的三維坐標進行主成分變換,得到對應於當前點的3個主成分係數μ1、μ2、μ3(μ1≤μ2≤μ3),進一步對這3個主成分係數進行歸一化

(5)

式中,λ1、λ2、λ3就對應於當前點在鄰域點集內服從一維、二維、三維空間分布的程度。如果λ1→1,則說明當前搜索點與鄰域點在空間上呈線狀分布特徵,如圖 4(a)所示;如果λ1與λ2的值可比擬且λ1+λ2→1,則說明當前搜索點與鄰域點在空間上呈面狀分布特徵,如圖 4(b)所示;如果λ1與λ2、λ3的值均可比擬,則說明當前搜索點與鄰域點在空間上呈體狀分布特徵,如圖 4(c)所示。

2.2.5 回波特徵

LiDAR的回波信息包括兩個方面:回波次數和第幾次回波。回波次數特徵有單次回波(Ns)及多次回波(Nm);第幾次回波特徵有首次回波(Nf)、中間回波(Ni)及末次回波(Nl)。地面在無遮擋條件下通常只有一次反射回波,如果受樹木的遮擋作用,則由於樹木間隙的存在導致部分激光點的末次回波從地面反射回來,因此表現出多次回波的末次回波點一般對應地面點的特徵;建築物一般由鋼筋混凝土等堅固材料組成,激光點打在上面不容易發生穿透,因此通常只具有單次回波,但是在建築物邊緣會發生多次反射;植被點由於間隙的存在導致激光點會發生多次反射,第1次回波出現在冠層表面,中間回波出現在樹枝以及樹葉上,而最後一次回波則一般透過間隙打在地面上(圖 5)。依據這個特點,本文提取了地面點回波指數(EGI)、建築物回波指數(EBI)、植被點回波指數(EVI)。假設當前點和鄰域點構成的點集的點數為Nall,則對應回波指數的數學形式為[18]

(6)

(7)

(8)

2.2.6 強度特徵

由於不同的地物類型對特定的激光波長的反射、吸收能力存在差異,因此激光強度信息在地物分類中也具有廣泛應用。本文計算當前點和鄰域點共同組成的點集內的激光強度的平均值AI作為當前點的平均強度值,並將其作為地物分類的一個特徵參數。

2.3 多尺度特徵構建

本文提取的特徵參數除了歸一化高度特徵不需要考慮鄰域結構外,其他均需要。而本文使用的鄰域結構是球體鄰域,因此受空間鄰域尺度的影響。在某個搜索半徑R下得到的當前點與鄰域點的關係只描述了鄰域尺度為R時的空間特徵規律,通過不斷調整搜索半徑R的大小,並分別計算不同鄰域尺度下的各個特徵參數值,從而得到一系列的多尺度特徵參數。結合研究區域內的地物對象大小、異質性特徵、空間聚集狀況以及激光點的間距大小等因素,初步設定的空間鄰域尺度有9個,分別為0.4 m、0.5 m、0.6 m、0.7 m、0.8 m、0.9 m、1.0 m、1.2 m、1.5 m。

2.4 隨機森林演算法

2.4.1 隨機森林演算法原理

隨機森林(random forest, RF)是一種集成學習演算法,它可以用於求解多類分類問題。該演算法採用Bagging抽樣技術,能有效地減少過擬合的風險,而且可以在訓練的過程中對變數的重要性進行評估,具有很好的抗雜訊、泛化能力[19],其基本組成是分類回歸樹。該演算法進行分類的具體步驟為

(1) 首先基於Bagging抽樣技術從訓練樣本中有放回的隨機抽取N個樣本數據、有放回的隨機抽取M個特徵變數構建新的自助樣本集,並由此產生T棵分類回歸樹,而每次未被抽到的樣本則組成了T個袋外樣本(out-of-bag, OOB)。

(2) 每棵分類回歸樹的根節點存儲對應的自助樣本數據,從根節點開始按照最小不純度原則選擇某個特徵變數,分裂生成子節點。本文使用的不純度指標為基尼係數G,計算方法為

(9)

式中,m是類別數;pi是第i個類別的樣本比例。接著對該特徵變數選取合適的分裂點使得分裂前後節點的基尼係數下降量達到最大。假設當前選擇的特徵變數為f,分裂點為k,則該特徵變數分裂前後的基尼係數下降量為

(10)

式中,G(fk)表示節點p的f值小於k的樣本的基尼係數;q表示節點p的f值小於k的樣本所佔比例;而G(f>k)表示對節點p的f值大於k的樣本的基尼係數。

(3) 每棵樹最大限度的遞歸的選擇節點和分裂節點,不做任何裁剪,直至達到最大的分解深度。試驗過程中為了加快建樹的時間並減少過擬合風險,對每個節點是否分裂添加額外的樣本數限制條件,即當某個節點的樣本數大於限制閾值nthreshold時,才可以繼續分裂。

(4) 將生成的T棵分類回歸樹組成森林,在測試階段,每棵分類回歸樹都對測試樣例進行一次投票,最後將得票數最多的類別屬性賦給測試樣例,從而實現隨機森林分類。

參考文獻[19]的研究成果並結合訓練樣本數量較大的特點,本文設置N值為樣本總數的90%,M值為特徵總個數的平方根,T值為100,分裂節點的樣本數nthreshold為10。

2.4.2 基於隨機森林的變數重要性度量

假設經過Bagging隨機抽樣後得到了自助樣本集S1、S2、…、Sn,對每個自助樣本集構建分類回歸樹Ti(i=1, 2, …,n),然後對袋外數據Bi(i=1, 2, …,n)進行預測,計算對應的分類準確率pi(i=1, 2, …,n)。對於某個特徵變數f,在每個袋外數據中對該特徵變數的值添加隨機雜訊得到新的袋外數據B′i,並用Ti再次對B′i預測,計算添加擾動後的分類正確率p′i。特徵變數的重要性可通過計算n次模擬後的平均精度下降量來表示[20-21]

(11)

如果精度下降量越大,則該特徵變數的重要性程度也就越高,為確保結果的穩定性,本文計算平均精度下降量時,控制模擬次數為10次。

2.4.3 基於隨機森林的特徵選擇

特徵選擇的目的是從特徵集中識別出關鍵特徵,刪除無關特徵或者冗餘特徵信息,從而達到降低特徵空間的維數以提高模型的訓練速度和學習效果[21-22]。基於隨機森林的特徵選擇(feature selection based on random forest, RFFS)演算法,首先利用隨機森林演算法的特徵變數重要性度量對特徵集進行排序,然後採用序列後向搜索演算法迭代的從當前特徵集中刪除最不重要(重要性得分最低)的特徵,並依次計算每輪迭代過程中的分類準確率,最後選擇分類準確率最高的特徵子集作為特徵選擇結果。為了確保訓練的模型可靠且穩定,本文採用了K折交叉驗證的訓練技巧,即每次迭代時將自助樣本集隨機劃分成K份,然後選擇其中的K-1份作為訓練數據構建隨機森林分類器,剩下的1份則作為驗證數據用於評估分類效果。在K次交叉驗證的過程中,選擇驗證數據上分類準確率最高的一次所得的變數重要性排序作為刪除特徵的依據,而該輪迭代的分類準確率則是K次交叉驗證的平均分類準確率[21]。由於初始的特徵變數數較多,兼顧計算機的處理效率與試驗結果的可靠性,本文設置K值為5。

2.5 優化計算的方法

由於機載LiDAR點雲數據量一般非常大,因而確定點雲中某個激光點的鄰域點過程是一個非常耗時的空間查詢過程,尤其是在多尺度幾何特徵參數的計算方面。為了提高空間查詢的效率,本文採用八叉樹結構[23]進行點雲數據的存儲與空間查詢優化。八叉樹將三維空間遞歸的劃分為許多規則的體素結構,並對每個體素建立八叉樹索引,在鄰域搜索時通過定位當前點所在的體素並預估可能與當前點有交集的體素從而減少空間查詢範圍來提高查詢效率。本文為了減少隨機森林分類器的訓練或者預測時間,在訓練或分類之前先對訓練與測試樣本進行抽稀(空間均勻採樣)處理,再利用抽稀後的訓練樣本構建隨機森林模型並對抽稀後的測試樣本進行分類,對抽稀後的測試樣本分類完成後,去噪點雲的類別按照空間最近鄰原則由空間距離最近的測試樣本點的類別決定,由此實現去噪點雲的分類。將測試樣本點的類別按照空間最近鄰原則賦給去噪點雲時,涉及最近鄰查詢,本文採用KD(K-dimension)樹[24-25]來提高最近鄰點的搜索效率。

2.6 分類精度評價

混淆矩陣是一種常用的分類精度評價方式,其每列數值代表實際類別的點雲在各個類別下的數量,每行則代表了模型預測的點雲在各個類別下的數量。本文也採用混淆矩陣對點雲分類精度進行評定,具體的分類精度評價指標包括:總體精度(OA)以及Kappa係數,對應指標的計算方法為

(12)

(13)

式中,N是點雲總數;nii代表對角線上的總點數;ni.則表示第i行的總點數;n.i則代表第i列的總點數。

3 結果與分析3.1 基於隨機森林的特徵選擇

圖 6表達的是特徵子集大小與總體分類精度指標之間的變化關係,試驗過程中設置分類回歸樹的數量T為100,每次隨機抽取90%的樣本作為自助樣本,隨機抽取的特徵數M為總特徵數的平方根,交叉驗證的K值為5,初始的特徵集大小為127,最小的特徵集大小為5。試驗表明,隨著特徵子集中重要性程度較低的特徵的剔除,分類器的預測能力整體上逐漸增加,這是由於去除了不相關和冗餘的特徵使得分類器性能得到提高的緣故。當特徵子集大小達到一定數量(本例是26)時,分類器的預測能力達到最大97.0%,繼續剔除特徵變數則會使得一部分關鍵特徵被當作無用特徵剔除使得分類器性能下降導致預測精度降低。

3.2 點雲分類結果

經過RFFS特徵選擇過程得到最優特徵子集後,為了加快分類速度,對去噪點雲進行抽稀處理(即空間均勻採樣,抽樣率大約為1%),再將這部分抽稀點雲作為核心點數據並從中選擇訓練樣本點和測試樣本點。本文最後選取的訓練樣本點個數為54 395、測試樣本點個數為70 976。基於Python語言對訓練樣本點構建隨機森林分類器,並基於該分類器對測試樣本進行分類。隨後,按照空間最鄰近插值原理對去噪點雲進行分類,結果如圖 7(a)所示。為了說明本文方法的有效性,本文對未經過特徵選擇而直接使用全部特徵構建隨機森林分類器也進行試驗,除特徵變數不同外其他參數設置不變,其結果如圖 7(b)所示。另外本文與現有主流的機器學習演算法之一:支持向量機(SVM)模型進行比較,試驗過程中使用統一的訓練樣本和測試樣本,由於線性SVM模型支持大容量樣本的模型訓練,因此本文採用線性SVM模型。模型參數是通過反覆嘗試使得總體精度達到最優來確定的,關鍵的參數包括penalty值為12,懲罰係數C=1.0,迭代次數為200,其他參數取默認值。同樣對特徵選擇前、後分別進行試驗,對應的結果如圖 7(c)、(d)所示。總體上看,本文的分類方法對於地面、其他類的分類效果非常好,但是對於建築物的分類效果較差,尤其是在坡地和建築物邊緣地帶(如圖 7(a)中的1#和2#);相對於未經過特徵選擇的分類策略而言,地面點的錯分現象更少,而且椒鹽現象更輕一些(如圖 7(a)、(b)中的3#、4#和5#),而相比於SVM模型而言,這種優勢更為明顯(如圖 7(a)、(b)、(d)中的1#、6#和7#)。

3.3 精度評價與效率對比

為定量評價本文提出的方法的分類效果,通過互動式的方式對點雲數據進行分類,並將其作為參考數據(圖 8),與上述4種分類策略下的分類結果進行比較,得到的誤差統計結果如表 1所示。由表 1可見,基於隨機森林演算法的分類結果特點是:經過特徵選擇後,目標類別點的漏分率均得到降低,除了建築物點的錯分率有所輕微增加外,其他兩類的錯分率也都得到降低。另外,建築物點的漏分率相比於其他類別要高很多,主要原因在於分類器誤把一部分建築物點當做地面點而發生混淆。而基於SVM演算法的分類結果特點是:經過特徵選擇後,地面點的錯分率和建築物點的錯分率得到降低,但其他類點的錯分率略微增加;另外,其他類點的漏分率得到降低的同時建築物點的漏分率卻在增加,而地面點保持不變。值得注意的是,基於SVM得到的建築物點的漏分率和錯分率要大大高於基於隨機森林演算法的結果。

表 1分類結果誤差統計Tab. 1Error statistic of classification result

表選項

進一步對這4種分類策略下的結果進行精度與效率評比,試驗過程使用的是輕便型筆記本電腦(型號:華碩A501;CPU:Intel Core i5-5200U,主頻2.19 GHz;內存12 GB),結果如表 2所示。從表 2的結果來看,經過特徵選擇後的隨機森林演算法的總體精度相比於未經過特徵選擇的分類精度提高1.4%,Kappa係數提高0.022;相比於經過特徵選擇的SVM分類方法而言總體精度提高2.1%,Kappa係數提高0.35;相比於未經過特徵選擇的SVM分類演算法而言,總體精度提高2.3%,Kappa係數提高0.037。這就說明經過特徵選擇後分類精度確實能得到提升,但是提升幅度較小,並且基於集成的學習演算法的學習能力比SVM更強,但是由於本文使用的最優特徵子集是通過RFFS演算法得到的,該特徵子集的優勢是使得隨機森林演算法的分類精度達到最大,但是該特徵子集並不一定適用於SVM模型,因此運用到SVM模型後沒有明顯的精度提升。另外,從運行效率方面來看,經過特徵選擇後,不管是隨機森林演算法還是SVM演算法,其模型訓練時間以及模型測試時間均得到大幅度降低,能滿足某些實時性要求高的應用需要。

表 2分類精度與效率比較Tab. 2The comparison of classification accuracy and efficiency

表選項

3.4 特徵重要性比較

圖 9是通過袋外樣本計算得到的特徵重要性結果(各個特徵的得分值經過標準化處理,最重要的特徵得分設為100)。由圖 9可知,歸一化的高度NH的重要性程度最高,這是因為歸一化高度則能有效地將地面點和非地面點進行分離,並且建築物點的歸一化高度特徵相對其他類點來說更明顯。另外,回波指數在分類過程中也起到了關鍵作用,這是因為地面不存在間隙,因此單次回波(或首次回波)佔據主要的比例,其比例也就最高,其次是建築物,最低的則是植被,因為植被具有縫隙容易發生多次透射,而建築物只在邊緣處發生透射,導致回波特徵有較大差異。另外激光強度AI、法向量與豎直方向的夾角Sn以及空間分布特徵λ2對點雲分類也發揮了重要作用。相比較而言,高程統計量在本次試驗中的分類作用則不明顯,主要是複雜的地形條件下點雲的高程特徵差異性並未得到突顯。

進一步考察空間鄰域尺度的利用情況,通過對各個鄰域尺度下的特徵數量進行統計,其結果如表 3所示。容易看出,隨著鄰域尺度的增大,有效得到利用的特徵數量也在增加,這表明在較大的尺度下這3種地物類型的特徵差異得到突出;另外,在較大的鄰域尺度下,高程統計量、空間分布特徵和建築物回波指數才開始出現作用;激光強度特徵、法向量夾角和地面點回波指數則在所有的空間鄰域尺度下均發揮作用。

表 3不同鄰域尺度下的特徵數量Tab. 3The feature count under different neighbor scale

表選項

4 討論與結論

本文以機載LiDAR數據為研究對象,通過分析點雲數據的特點提取了高度統計量、歸一化高度、表面相關特徵、空間分布特徵、回波特徵和激光強度特徵6大類特徵參數,並在此基礎上構建多尺度特徵參數,採用隨機森林分類演算法進行數據降維,得到最優特徵子集後再對點雲進行分類。試驗過程中得到了以下幾點結論:

(1) 多尺度特徵參數的構建不僅有效克服了鄰域結構設計時最佳空間尺度的選擇難問題,並且為點雲分類增加了更多的特徵參數,但是並非所有多尺度特徵參數都對分類變數起到重要作用,其中有許多特徵參數之間存在相關性和冗餘,因此在進行點雲分類前需要對特徵變數進行降維。這一方面可以減少模型的訓練時間,另一方面可以提高分類器的預測能力。RFFS特徵選擇演算法不僅能快速剔除相關和冗餘特徵,且該演算法以分類精度最大化為目標,能有效地尋找到分類預測能力最優的特徵子集。本文基於該方法將原始特徵集大小由127下降為26,不僅使得模型訓練和預測的時間大大縮短,並且使得最終的分類精度提高1.4%。

(2) 本文的分類方法在地形條件複雜區域和地物邊緣處會產生較大的錯分誤差。總體上來看,本文的分類方法對地面點和其他類點的識別能力很強,對建築物點的識別能力稍弱。隨機森林模型建立過程中由於採用Bagging抽樣技術,使得模型對異常值和雜訊有較好的容忍度,並且不容易出現過擬合。與傳統的SVM分類演算法進行比較發現,基於隨機森林演算法的分類總體精度和Kappa係數均要優於SVM,體現了集成學習演算法的優勢。

(3) 本文的特徵重要性分析結果表明,歸一化高度在城市地區的點雲分類中起到了核心作用,另外回波指數、激光強度、表面特徵和空間分布特徵對點雲分類也起到了重要作用,高程統計量特徵發揮的作用則較小。結合空間尺度的利用率來看,隨著鄰域尺度的增大,特徵的利用率也在逐漸提高,並且激光強度特徵和地面點回波指數在各個尺度均發揮作用。

城市地物類型除了空間形態和回波特徵等差異外,還有光譜信息、紋理信息等方面的差異,如果能將光譜特徵和紋理特徵引入到分類中,點雲的分類精度有可能得到進一步提高,並為精細的地物類型分類提供支持。隨著無人機LiDAR技術的發展,集成光學或高光譜感測器的無人機系統將逐步普及,未來將探索融合無人機影像與LiDAR的點雲分類方法。

【引文格式】熊艷, 高仁強, 徐戰亞. 機載LiDAR點雲數據降維與分類的隨機森林方法[J]. 測繪學報,2018,47(4):508-518. DOI: 10.11947/j.AGCS.2018.20170417


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 測繪學報 的精彩文章:

成曉強:信息量與相似度約束下的網路地圖服務縮略圖自動生成演算法
王競雪:顧及拓撲關係的立體影像直線特徵可靠匹配演算法

TAG:測繪學報 |