當前位置:
首頁 > 最新 > 孫群:多源矢量空間數據融合處理技術研究進展

孫群:多源矢量空間數據融合處理技術研究進展

《測繪學報》

構建與學術的橋樑 拉近與權威的距離

多源矢量空間數據融合處理技術研究進展

孫群

信息工程大學地理空間信息學院, 河南 鄭州 450052

收稿日期:2017-07-26;修回日期:2017-09-11

第一作者簡介:孫群(1963-), 男, 博士, 教授, 博士生導師, 研究方向為數字地圖製圖與地理信息處理

摘要:矢量空間數據既是人類社會與地理環境信息的重要組成部分,也是相關社會信息的重要載體,在國民經濟和國防現代化建設中起著非常重要的作用。多源矢量空間數據融合處理技術是解決多源數據在幾何位置、屬性特徵等方面不一致性問題的有效方法,近年來相關的技術和應用得到了深入發展。本文在分析二維矢量空間數據應用所面臨問題的基礎上,綜述和評價了二維矢量空間數據幾何特徵融合、屬性特徵融合等相關理論、演算法和技術的研究現狀,並根據目前的研究展望了其理論和應用未來的重點研究方向。

關鍵詞:矢量空間數據同名實體匹配屬性特徵數據融合

Research on the Progress of Multi-sources Geospatial Vector Data Fusion

SUN Qun

Abstract: Geospatial vector data plays a crucial role in the national economy and the construction of the national defense modernization for it"s not only the important component of human social and geographical environment information, but also a key carrier of relevant social information. The technology of the multi-source geospatial vector data fusion is a valid method of solving the inconsistency questions of the multi-source data in geometric position, attribute feature, etc. In recent years, its relevant technology as well as its application also has deeply developed. Based on the analysis of the questions in the application of the two-dimensional geospatial vector data are facing, the research status of the theory, algorithm and technologies of geometric feature fusion and attribute feature fusion of the two-dimensional geospatial vector data are overviewed and evaluated, with the current research status, whose theory and application of the future focus of research are looked forward to in this paper.

Key words:geospatial vector dataidentical entity matchingattribute featuredata fusion

矢量空間數據是指與地理和空間分布有關的、反映現實世界各種現象及其變化的一類帶有空間坐標的數據,包含了地理空間實體的幾何位置信息、空間形態信息、空間關係信息以及屬性語義信息等。當前隨著矢量空間數據獲取與處理技術的迅猛發展,矢量空間數據日益增多。矢量空間數據在廣泛應用的同時,也伴隨著一系列亟待解決的問題:

(1) 矢量空間數據生產時採用的地理信息標準和數據處理要求不同,造成了矢量空間數據存在許多差異性,給矢量空間數據應用帶來諸多不便。國民經濟眾多部門從各自需要出發,生產了為數眾多的矢量空間數據,由於這些數據生產時執行各自的地理信息標準和數據處理要求,採用了特定的空間數據模型和空間數據存儲格式,給地理信息應用帶來不便,給不同部門之間的矢量空間數據共享帶來極大困難,加大了數據生產成本,造成人力、物力的極大浪費。

(2) 矢量空間數據獲取的途徑和時間不同,使矢量空間數據在內容詳細程度和現勢性方面也有很大差別,導致所生產的矢量空間數據在尺度、版本、幾何位置和形狀等方面存在不一致性,影響了矢量空間數據的質量和現勢性。再加上矢量空間數據生產周期較長,矢量空間數據的更新還達不到持續、高效、動態和準確的要求。矢量空間數據的多樣、新舊不一和內容詳略不同給數據應用也帶來不小的困難。

多源矢量空間數據融合理論和方法是解決上述問題的有力工具,它能對多源矢量空間數據進行空間基準、數學基礎、尺度、內容和空間關係的一致性處理,保證數據的一致性。基本思路是先進行多源數據的收集和評定,對可用的數據先進行集成,也就是採用空間基準變換、數據格式轉換以及屬性編碼對應等手段將多源多尺度矢量空間數據集成在一起,初步完成點位位置、圖形形狀和內容詳略的統一與協調,然後分析多源矢量空間數據在尺度、屬性和空間關係上的聯繫與區別,進行矢量空間數據幾何和屬性匹配,對相關數據進行幾何形狀和屬性信息的修改更新,從而完成矢量空間數據幾何信息、屬性信息、空間關係的融合和一致性處理,經檢查無誤後得到融合後的新的矢量空間數據。

多源矢量空間數據融合屬於地球空間數據融合的範疇,地球空間數據的融合研究始於20世紀60年代,地理信息系統的出現和應用以及多源數據的使用推動了空間數據融合研究及其應用[1]。本文針對二維矢量空間數據的融合處理,從幾何特徵融合處理、屬性特徵融合處理等方面分析多源矢量空間數據融合的理論與技術發展現狀,並結合其面臨的機遇和挑戰,對多源矢量空間數據融合的未來發展做出展望。

1 幾何特徵融合處理技術

幾何特徵融合是多源矢量空間數據集成融合的核心內容。幾何特徵融合是解決同名地物在不同資料庫中地理位置不一致問題的關鍵技術,通常包括同名實體的識別和匹配後的調整變換兩個過程。其中,同名實體匹配就是利用相同地理實體在幾何特徵、拓撲關係和語義信息等方面的相似性,識別不同資料庫中的同一地物,是矢量空間數據融合必然要解決的問題。匹配後的調整變換實際是進行數據更新、編輯加工的過程,可以使空間數據內容和質量準確可靠。

1.1 同名實體匹配

多源矢量空間數據融合的主要任務之一就是解決多源數據在幾何位置上的不一致性,主要手段就是進行同名實體的數據匹配。同名實體匹配是依據一定的地理實體特徵,計算相同地理實體在不同數據源中的相似度和差異度[2-3],從而對其進行識別的過程。這些特徵包括地理實體的幾何特徵、拓撲特徵和語義特徵等,當前的同名實體匹配方法均是圍繞上述某個或某幾個特徵展開的。同名實體匹配研究最早始於美國人口調查局和地質測量局合作開發的地圖自動合併系統[4]。隨著研究的不斷深入,各種新穎的演算法與智能演算法思路的引入層出不窮,大大提高了演算法結果的精度。

1.1.1 基於幾何特徵的匹配方法

基於地理要素的幾何特徵進行同名實體匹配的演算法,是所有匹配演算法中最基本和最常用的演算法,利用幾何特徵進行同名實體匹配的原理是:通過度量地理要素的一個或幾個幾何特徵的相似度,利用先前設置的閾值來判斷是否屬於同名地理要素。不同方法之間的差異主要體現在幾何特徵與匹配單位的選擇以及相似度的判斷方式等方面。

常見的幾何特徵包括地理要素之間的距離、形狀描述、方向趨勢等,不同匹配演算法對這些幾何特徵的數學描述上面略有差異。如點實體匹配多採用距離(歐幾里得距離)指標量衡量匹配對象間的相似度,如位置最近演算法[5]、相互位置最近演算法[6]等。線實體常用的匹配幾何相似度指標包括距離、長度、方向、最大弦、組成面積等。其中空間距離是進行線實體匹配最常用的指標,如文獻[7-9]採用Hausdorff距離,文獻[10]採用L2距離,文獻[11-13]採用Fréchet距離,如圖 1所示;面實體匹配則多利用面要素的形狀特徵進行,主要包括面積、曲率、轉折點、不變距與實心度等。

在相似度的計算和度量方面,可以將不同的相似度計算轉換為概率計算[14],也可以將不同路段相似性度量轉換為結點到路段的距離[15],還有的是基於典型地物與待匹配點空間關係的匹配演算法[16]。

此外,在進行線要素的匹配時,有基於緩衝區重疊的方式,即以匹配線段為基準建立緩衝區,以待匹配的線段落入該緩衝區範圍的長度判斷兩者是否為同名實體,利用緩衝區增長法進行了道路網匹配[17-20]。在匹配基本單位的選擇方面,大部分學者都使用以「節點-弧段」的方式進行匹配[15,21-24];而有些學者則提出了基於全局一致性的匹配思路,摒棄了結點或弧段作基本匹配單元的做法,根據道路網結構,以道路stroke作為基本單元[25];還有學者是將道路數據劃分為路徑、路段和線段3個等級分別進行匹配[7]。隨著智能模擬演算法的發展,也有學者將其應用到同名實體匹配中,利用蟻群智能演算法,將道路網匹配問題轉換為全局尋優的數學優化問題,在度量目標間的相似性時利用了距離和拓撲結構[26];還有個別學者提出了利用多元Logistic回歸模型匹配演算法[27]。

面實體匹配是近些年來同名實體匹配研究的熱點和難點,引起了國內外學者的廣泛關注。面實體匹配的方法很多,如基於影像的面狀水體提取方法和基於模糊理論的面實體匹配方法[28-29];從降維和傅里葉變化的角度出發,通過提取能反映居民地主要特徵的骨架線,把多源面狀居民地之間的匹配轉化為線的匹配方法[30];採用不變矩的矢量面目標匹配方法[31];通過綜合多種面實體幾何相似度指標,如位置、形狀、大小、方向等,進而加權評分計算總相似度對面實體進行匹配[32-35];採用拓撲匹配與空間相似性匹配相結合的方法,將兩種方法進行順序、雙向和循環運用,有效解決實體對象1:1、1:M、N:M等的匹配方法[36];將中誤差引入面實體匹配的過程,利用面實體的空間臨近關係,通過兩次匹配優化面實體匹配結果的方法[37]。綜合上面所提到的面實體匹配方法,都可歸納成為以下4類:基於位置鄰近度的相似性匹配方法、基於疊置面積的相似性匹配方法、基於形狀的相似性匹配方法、綜合因素的面實體匹配方法。

1.1.2 基於拓撲特徵的匹配方法

拓撲匹配是以目標實體與待匹配實體之間的拓撲特徵相似度作為匹配依據。拓撲關係是最基本的空間關係,具有在幾何變換下不變的特點和性質。常見的拓撲關係主要包括:鄰接、關聯、包含等,在同名實體匹配中可以利用這些拓撲信息。例如,在線實體匹配過程中,可以先進行節點匹配,再確定與節點相關聯弧段的匹配關係[38-39]。由於拓撲關係的特點,拓撲匹配通常與幾何匹配結合在一起使用,很少獨立使用。基於空間關係相似性的面狀居民地匹配演算法[40],以初始匹配居民地為參照物對目標面狀居民地與待匹配面狀居民地之間的拓撲關係、方向關係和距離關係進行形式化表達,提出了由於該方法是依據已匹配對象確定未匹配對象,因此,初始匹配居民地的選擇是此方法的關鍵。利用拓撲和空間相似性的面實體匹配方法[41],它綜合考慮了面實體的拓撲特徵與幾何特徵,與僅利用拓撲特徵或者幾何特徵的相似性匹配方法相比,該方法不僅能夠解決一對多、多對多的匹配問題,而且具有較好的匹配效果。該方法的不足之處是匹配方法涉及的閾值和權重的設置存在主觀性因素。

1.1.3 基於屬性特徵的匹配方法

此外,還有基於地理要素的屬性信息進行同名實體匹配的方法,其原理是利用不同數據源對相同地理現象的基本性質描述相同或相近的特點。例如,在同一區域的海圖和陸圖數據中,兩個三角點名稱的屬性值都是「西蟹峙」,僅利用三角點的名稱就可以確定兩者為同名實體。文獻[42]設計實現了一個土地利用的地理本體,用於計算屬性之間的相似度。文獻[43]採用中文近似字元串匹配演算法BPM-BM進行了地名數據匹配。文獻[44]針對傳統地名匹配演算法的不足,提出了漢字地名專名相似度計算方法與漢語地名通名語義相似度計算方法。由於不同數據源屬性信息可能存在較大的差別或屬性信息難以保證完整性,因此基於屬性信息的匹配方法並不多用,很多時候是作為一個匹配特徵同幾何特徵與拓撲特徵共同使用。

1.2 幾何位置調整

幾何位置調整是對多源數據進行選取、化簡、更新、關係協調等操作在內的加工整合,最終得到新的、質量更高的數據。矢量空間數據經過數據集成和匹配,不同來源的數據之間並沒有發生實質的相互作用,仍保持著其各自的數據特徵。要使空間數據產生「質」的飛躍,必須進行數據調整變換。目前關於匹配後的位置調整等融合處理操作的研究不多,主要的方法如下。

1.2.1 基於同名點三角剖分的地物調整方法

1988年,Saalfeld首次提出了基於同名點三角剖分的地物調整方法[45-46]。該演算法首先使用基於點實體匹配演算法所得的匹配點分別在首先將同一地區不同來源的圖形數據中建立拓撲同構的Delaunay三角網,然後在各個三角形子區域內建立坐標轉換方程,再根據頂點坐標求解相關參數後將三角形內所有點進行坐標變換。但是由於同一個頂點可能存在於多個三角形中,該點需要在每一個三角形中都經過上述變換,會出現節點處扭曲的問題。針對該問題,文獻[47]提出了帶邊界約束的三角網剖分和帶權重的三角網剖分等改進演算法。文獻[48]分別在影像數據和矢量數據中建立Delaunay三角網,然後通過匹配同名特徵點的方法建立兩種數據的位移關係,如圖 2所示。

1.2.2 基於拓撲關係的合併變換演算法

該演算法將點實體分為「已調整點」和「待調整點」,其中「已調整點」是成功匹配到同名點的數據,其坐標由相應的同名點確定(加權平均坐標或直接調整到對應點),「待調整點」是未匹配到同名點的點。其演算法認為「待調整點」的幾何位置變換關係受「已調整點」的影響,因此該演算法的重點就是確定「待調整點」受哪些「已調整點」的影響及其影響大小。很顯然,該演算法重點在於「待調整點」的位置坐標變換,但其根本在於「已調整點」的位置精度,但其「已調整點」的位置變換則過於簡單[49-50]。

1.2.3 基於平差原理的地物調整方法

該演算法首先將同一地區不同來源的圖形數據分為「調整圖」和「參照圖」,然後根據「調整圖」和「參照圖」中的同名匹配點對建立坐標位移變換方程[51]。為了計算其中的坐標調整量(即平差改正數),演算法設計了坐標移位方程、形狀方程、相對位移方程和其他方程(面積方程、平行線方程、線段長度方程、鄰近實體距離方程等),然後採用約束違反定權法確定相應約束的違反值,最後聯立方程組,採用按照間接平差的最小二乘解法求得坐標調整量。

1.2.4 基於多評價因素的調整變換演算法

該演算法選擇要素對周圍地物的影響度、要素位置的準確度和要素在不同來源數據中的重要性對地物要素進行綜合評價並確定影響權重,然後為了綜合不同評價因素的影響,採用加權平均的方法實現同名要素的合併變換[52-53]。

由以上幾個調整變換演算法可以看出,空間實體調整變換通常是根據實體匹配結果,將整個待調整區域劃分為幾個子區域,然後在各個子區域內建立局部的坐標變換關係,進而實現不同來源空間實體對象的調整變換。此外,文獻[54]根據「數據同化」的思想,提出了基於最優插值的點集合併演算法和線要素合併演算法,效果顯著。

2 屬性特徵融合處理技術

多源矢量空間數據屬性特徵融合的研究重點是不同語義之間的匹配問題,即發現或計算不同來源數據的語義映射關係或相似度。對於語義匹配而言,其匹配演算法的核心是計算屬性信息之間的相似度,包括基於字元串的方式和基於詞典的方式,後者主要利用已有的詞典識別出詞與詞之間是否近義或存在上下文關係等。在屬性內容融合方面,矢量數據間的屬性融合主要通過屬性欄位的映射轉換進行,常用的方法有基於轉換規則的方法和基於語義匹配的轉換方法。

2.1 基於映射轉換規則的屬性融合

該方法主要通過建立不同源數據間的要素分類分級映射規則和屬性特徵項轉換規則,實現語義層次上的屬性特徵關係映射和源數據集到目標數據集的屬性特徵項轉換,進而完成數據屬性融合。文獻[55]在深入了解Shapefile數據和地理信息交換數據的屬性表結構以及屬性數據內容特點後,建立了包含實體間編碼和屬性欄位對應關係的邏輯控制模型,實現了Shapefile數據和地理信息交換數據的屬性數據轉換與融合。文獻[56]在介紹國外空間數據語義差異的基礎上,提出了基於外部控制表的語義轉換方法,能夠解決同一存儲格式不同語義編碼的數據轉換。文獻[57]根據標準地理數據格式建立了地理要素重分類分層與編碼轉換映射表,實現了CASS DWG數據的「無損轉換」和標準化轉換入庫。基於映射轉換的方法,需要製圖專家的參與,協助制定這些轉換規則,是屬於半自動化的轉換。

2.2 基於地理本體的屬性融合

基於地理本體的屬性特徵融合是近年來該問題的研究重要之一,湧現出了許多成果。該方法通過本體來描述異構數據源間的語義,包括單一本體、多本體和混合本體等方式[58]。文獻[59]利用字元串和語義詞典相結合的方法進行語義匹配,對Schema中元素的名稱進行分詞、去詞綴、擴展縮寫等處理,在處理過程中以詞典作為參考,然後通過字元串比較計算相似度。文獻[60]提出了一個面向一般圖的語義相似度計算演算法。文獻[61]研究了地理本體的概念映射、語義互操作、形式化概念分析及概念格等多個方面。文獻[62]比較了描述層次的XML、謂詞邏輯層次的CML以及更複雜、形式化程度更高的只是交換格式KIF等本體語言。文獻[63]通過地理本體實現了不同數據間的屬性信息融合,並以水系要素中的「干出灘」類為例進行了實例研究。文獻[64]利用支持雙向映射的混合本體模式來解決全局本體與各應用本體之間的衝突,實現數據的語義集成,有效克服了數據間語義異質性問題。文獻[65]利用本體模型通過karma工具對不同來源的結構化地理信息進行語義映射及異構性消除,然後對數據中不同特徵進行相似度計算,利用機器學習方法行訓練,進而實現多源數據的融合。文獻[66]採用多本體模式構建了一種基於本體的地理信息集成框架,通過等級和角色的使用。該地理本體模式有效表達了現實世界的等級結構和地理實體的不同特徵,實現了不同細節層次之間和不同領域本體網路之間的聯繫。

在語義匹配領域,也取得了很多成果。文獻[67]提出了一種面向對象的匹配方法,利用本體進行地理信息建模,不僅能夠維持空間對象拓撲關係,還考慮了語義的一致性。文獻[68]提出了一種基於網格服務的語義匹配方法,通過建立相關領域的本體庫從而為服務功能的語義匹配提供支持。文獻[69]提出了語義相似度的計算方法,並利用模糊層次聚類的方法得出匹配的最終結果,文獻[70]提出了顧及通名語義的漢語地名相似度匹配演算法。總體來講,目前語義匹配的研究多是基於地理本體的相關研究內容而展開,並取得了許多實用成果。

隨著互聯網技術和移動通信技術的發展,具有地理標識的非傳統空間數據(如簽到數據、社交媒體數據、新聞文本數據、多媒體數據等)大量產生,開始發揮著越來越重要作用,如果將位置作為一種空間維度標準與現有矢量數據進行融合,將極大豐富空間數據的屬性內涵。

3 多源矢量空間數據融合面臨的挑戰

多源矢量空間數據融合技術是利用多源數據進行地圖生產與更新的有效手段。但是,隨著數據獲取方式的發展、數據形式的變化、地圖生產與更新需求的改進,多源矢量空間數據融合技術的發展面臨著一系列新的問題,需要進一步的研究。

(1) 基礎理論研究需要進一步加強。多源矢量空間數據融合的理論和方法處於起步研究階段,還有大量工作需要研究。如上面所述,其主要研究的是多源空間數據在屬性和幾何位置上更深層次的相互印證、相互補充、相互關聯和相互匹配處理。而當前無論是從理論還是實踐上來看都還沒有形成完整的理論和技術體系。研究者們對矢量空間數據差異性的具體表現和產生的地學根源很少研究;對於矢量空間數據集成與融合處理過程中所遵循的各種規則和標準研究的不斷深入。

(2) 技術手段需要交叉融合。多源矢量空間數據融合處理研究主要包括空間數據幾何信息,屬性信息融合處理的規則、演算法研究,多源空間數據尺度的融合處理研究等。當前的研究往往集中在上述的某一個方面,而沒有從整體和全局的角度去研究空間數據融合,各個研究部分之間缺乏聯繫與配合,整個過程缺乏有效的控制。另外,目前空間實體的幾何相似性度量模型還不是很完善,大多數模型沒有考慮空間數據多尺度的特點;多尺度空間數據匹配的規則目前還沒有深入的研究;語義相似性度量模型大多是基於語義距離的模型,其主要問題是邊權值的確定還沒有一個具體的標準。

(3) 需要開展多源矢量空間數據尺度融合處理研究。描述空間實體幾何形狀或者屬性信息的詳細程度在地學領域則被稱之為「尺度」或者「解析度」,在地圖學領域將其稱之為「比例尺」。本文中,「尺度」的概念擴展到屬性信息表達的詳細程度,即空間數據尺度融合處理的不僅包括幾何形狀的融合處理,而且包括屬性信息的融合處理。多源矢量空間數據尺度融合處理研究主要包括兩個方面的內容:① 利用自動製圖綜合技術來解決多源矢量空間數據在幾何尺度上的差異性,這是由大比例尺數據派生小比例尺數據所不可避免的問題。重點研究實用性較好、效率較高的線與面化簡演算法、雙線中軸線的提取演算法、面轉化為點的演算法、面合併的演算法等;② 研究具有不同尺度矢量數據中屬性信息(即描述空間實體的屬性信息採用不同的詳細程度)融合的方法。主要解決兩個層面的問題:一是當空間數據的幾何尺度發生變化後,就有可能需要對原有的某些屬性信息進行聚類、歸併和重新修改填補;二是當多個空間數據集的幾何尺度基本一致,而屬性信息的詳細程度不一致時,就需要通過幾何匹配和屬性匹配技術找到同名實體,然後進行屬性信息的相互印證和相互補充。通過行之有效的多源矢量空間數據幾何特徵融合、屬性特徵融合以及尺度融合處理研究,檢測矢量空間數據的局部變化,有效實現矢量空間數據的持續和快速更新。

4 結束語

隨著各種地理信息服務的普及化和大眾化,地理信息數據的製作門檻在不斷降低,可用的數據資料變得數量越來越多、種類越來越繁雜。為了能夠使地理信息數據在保持精準的同時,還能夠做到「與時俱進」,需要能夠科學合理地利用數據資料,博採眾家之長。多源矢量空間數據融合處理技術必須加快發展,迎接挑戰。本文基於對近年來多源矢量空間數據融合處理關鍵技術研究的總結,對幾何特徵融合處理、屬性特徵融合處理等所涉及的理論問題、技術演算法等方面作了分析和總結,最後指出了多源矢量空間數據融合存在的問題及發展趨勢。

【引文格式】孫群。多源矢量空間數據融合處理技術研究進展[J]. 測繪學報,2017,46(10):1627-1636. DOI: 10.11947/j.AGCS.2017.20170387


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 測繪學報 的精彩文章:

楊必勝:三維激光掃描點雲數據處理研究進展、挑戰與趨勢

TAG:測繪學報 |