當前位置:
首頁 > 最新 > 海洋大數據關鍵技術及在災害天氣下船舶行為預測上的應用

海洋大數據關鍵技術及在災害天氣下船舶行為預測上的應用

海洋大數據關鍵技術及在災害天氣下船舶行為預測上的應用

王冬海,盧峰,方曉蓉,郭剛

中電科海洋信息技術研究院有限公司,北京 100041

摘要:隨著海洋數據量的爆炸式增長,海洋大數據受到越來越多的關注。主要分析和總結了當前海洋大數據的研究現狀和關鍵技術,聚焦了機器學習在海洋大數據中的模型預測研究的實例,對海上船舶在災害天氣(颱風)下的行為進行了回歸訓練和預測。通過構建和對比決策樹、Bagging、隨機森林等多種機器學習演算法,對樣本數據進行學習、預測和檢驗評估。最終結果表明,隨機森林方法在災害天氣下船舶密度的預測應用中具有良好和穩健的效果。

關鍵詞:海洋大數據;機器學習;船舶行為預測

doi:10.11959/j.issn.2096-0271.2017044

論文引用格式:王冬海,盧峰,方曉蓉,等.海洋大數據關鍵技術及在災害天氣下船舶行為預測上的應用[J].大數據,2017, 3(4): 81-90.

WANGD H, LU F, FANG X R, et al. Ocean big data and applications in ship behaviorprediction under disaster weather[J]. Big Data Research, 2017, 3(4): 81-90

1引言

在經濟全球化的今天,全球90%的貿易都經過海洋,全球70%的經濟活動都發生在沿海地區,沿海地區海洋經濟發展已經成為帶動我國國民經濟增長的重要因素。隨著信息技術的快速發展和國家海洋戰略的實施,與海洋相關的科學觀測/監測與數值計算、海洋經濟和管理等數據日益增多,與海洋相關的音頻、視頻、文字和圖片等數據大量湧現,數據存儲量、規模、種類飛速增長,海洋大數據正成為大數據領域的重要應用之一。

海洋大數據作為全球大數據的重要組成部分,是實現海洋信息行業智能化管理和「互聯網+」的基礎和前提,也是實現我國「海洋強國」戰略的重要支撐與保障。隨著我國「空天地海潛」一體化立體監測技術的發展和數字海洋建設的全面深入,海洋信息化已經逐步從數字海洋向智慧海洋發展,海洋數據在數量、增長速度、種類擴展3個方面都有了飛躍式的進展,海洋數據蘊含的價值也越來越高。

同時,海洋大數據還面臨著一些挑戰:海洋相關數據體量巨大、類型多樣、數據利用率較低、處理演算法過於簡單、遠海海域數據獲取不足等問題,難以滿足海洋信息服務的需求。迫切需要發展海洋大數據及其應用技術,充分挖掘海洋數據價值,全面提升資源保護與開發、環境預警與預報、應急與救助、安全管控等領域的智能化、精細化能力,為實現「海洋強國」「一帶一路」國家戰略提供信息技術支撐。

本文針對海洋大數據技術現狀,圍繞國家海洋發展戰略在海洋安全建設、智慧海洋建設等方面的關鍵技術研究與工程應用,介紹了海洋大數據研究的關鍵技術及海洋大數據在災害天氣下輔助決策方面的初步應用。

2海洋大數據關鍵技術

海洋大數據應用技術平台基於雲計算架構,搭建包括數據彙集、數據存儲和數據處理的大數據業務處理系統以及運維管控、安全保障、標準規範3個支撐體系,如圖1所示。

圖1 海洋大數據應用技術平台架構

2.1海洋多源信息感知探測技術

構建覆蓋空、天、海、岸、潛的一體化數據採集信息網路,獲取來自天基信息系統(衛星)、無人機信息系統、岸基雷達和觀測站、船載探測平台、浮標、水下觀測信息系統(水下滑翔機、水下潛器和海底觀測網等)多源觀測信息,實現海洋的全天時、全天候環境與目標觀測,通過海上綜合通信傳輸網路,對感知網路進行集成連接,形成一體化綜合信息網路,獲取衛星遙感影像數據、航空影像遙感數據、沿海台站觀測數據、岸基雷達觀測數據、海洋浮標觀測數據、調查船走航斷面的觀測數據、海底潛標平台數據等海洋觀測/監測數據以及漁業經濟數據、漁業捕撈數據、漁業管理數據、海洋旅遊數據、航運交通數據、海上貿易數據、全球海關數據等海洋行業數據,達到對海域安全態勢、環境信息、海域資源、目標活動的全面掌控。

2.2海洋大數據處理平台技術

海洋大數據平台基於雲計算架構,解決海量數據的分散式存儲、管理和分析等大數據業務,改變海洋信息資源使用的無序狀態。突破海量數據存儲及高效管理,重點解決各類涉海信息自成體系、數據格式不統一、數據量和採樣頻率差異大等問題,構建統一數據提取介面,制定信息技術標準和數據轉換規範,建立多源大數據存儲及管理系統。資料庫採用分散式非結構化資料庫——HBase,數據統一採用基於Hadoop分散式文件系統(Hadoop distributed file system,HDFS)進行存儲。針對海量數據的分散式存儲及離線快速分析處理,採用包括實時性處理能力強的Spark計算框架以及適用於超大規模作業離線處理的基於map/reduce並行編程模型的Hadoop計算框架,對海量涉海數據進行批量自動轉換,最終實現海洋數據從存儲、管理到數據清洗、融合、挖掘、顯示的大數據平台構建[1]。

2.3海洋多維重建與可視技術

海洋環境要素多維重建與可視計算是在基於地球球體模型的三維可視化基礎平台上,對海底、水體、海面和海岸的各種海洋自然要素以及海洋自然現象進行可視化表達、再現或預現。綜合運用增強現實等技術實現海洋要素、自然要素、海上設施、目標要素等的三維可視化表達。將計算機生成的海面及海岸等虛擬圖形疊加在用戶看到的一個現實海岸及海面場景上,從而代替虛擬現實中完全由計算機虛擬生成的世界。海洋要素數據可視化通過海洋數值模擬,實現對海水溫度、鹽度、海表面高度異常、海流、密度、聲、光、電、磁等參數的三維動態再現。海洋自然要素通常採用場模型來表達,實現對泥沙沉積、礦產等海底地質、地形地貌、礦產資源、海底電纜管道和毗鄰區、專屬經濟區及大陸架區域的大陸坡線、海槽等自然要素的可視化表達。目標要素包括出現在水面及水下的船舶、無人潛航器、蛙人等目標。將不同參數的海洋狀態數據疊加展示在二維、三維海洋地理信息系統(geographic information system,GIS)平台之上,實現對海洋基礎數據、海洋目標數據、海洋環境數據以及衍生數據(海洋同化數據、海洋遙感反演數據、數值分析輸出數據等)的管理、集成、分析以及可視化表達等功能,為研究海洋系統的結構與功能、揭示並認識海洋現象的各種規律等活動提供通用、易用、規範的工具。

2.4海洋大數據關聯與挖掘技術

針對海上分散式多源異構性感測器間目標關聯問題,利用多特徵融合的目標關聯方法,通過分析雷達、船舶自動識別系統(automatic identification system,AIS)、廣播式自動相關監視(automatic dependent surveillance-broadcast,ADS-B)系統、電磁、光電等多感測器之間觀測上提取的共有特徵,計算目標間通過特徵信息融合成的關聯測度,形成關聯判決依據,並在關聯決策上採用基於有效特徵數累積的全局最優關聯演算法,對直接的關聯依據決策判決進行修正,提供海洋情報的關聯挖掘和輔助決策[2]。通過採集海洋氣象、海浪、洋流、海洋資源、海洋災害等海洋環境信息以及AIS、ADS-B、雷達、光電等手段感知目標信息,再結合航運交通信息、海上貿易信息、地理信息、市場信息等,採用序列建模、聚類等無監督方法以及決策樹(decision tree)、隨機森林(random forest)、支持向量機、神經網路、貝葉斯等有監督方法的機器學習預測分析,得到相關關係與基本規律,預測未來的變化趨勢[3],為海洋資源利用、航運、漁業、旅遊等各項海洋活動提供信息服務支撐。

3海洋大數據在災害天氣下船舶行為預測上的應用

利用機器學習對海洋關聯事件進行預測是海洋大數據應用的一個重要方向。採用機器學習中的決策樹、Bagging、隨機森林等演算法,對海上船舶在災害天氣(颱風)情況下的行為進行了預測。針對機器學習在多源異構海洋大數據的預處理、特徵工程、特徵選擇、模型訓練、模型評估等演算法流程進行了介紹。

3.1災害天氣下的船舶行為預測

海上船舶在災害天氣下需要隨時掌握天氣變化情況,並在颱風、海嘯等極端天氣來臨之前及時做出到就近港口避難等行為反饋。然而不同海域的船舶在何時做出何種避難行為往往受到船長的主觀因素影響較大。船舶在災害天氣下的行為模式是否存在顯著特徵,能否得到合理的預測,該問題的解決對於災害天氣下港口應急調度與高效管理具有重要意義,可通過颱風路徑的預測信息精確預測船舶的行為,從而減輕災害天氣對航運業的經濟損失。近年來隨著大數據技術的發展,機器學習的強大學習和智能化應用在各行各業逐漸火熱和成熟。機器學習主要研究計算機模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能,目前已經成為多源異構大數據挖掘和處理的重要科學工具。

本文通過船舶行為與異常天氣的回放來構建極端天氣條件與船舶密度變化的演算法預測模型,根據對大量樣本的學習、預報和檢驗,得到災害天氣情況下的船舶行為預測,為海上防災預警、港口泊位管理與指揮調度等應用提供信息支撐。

3.2多源數據採集

本文主要採用中國氣象局颱風最佳路徑數據集[4]、美國國家環境預報中心(National Centers For Environmental Prediction,NCEP)全球數值環境再分析場[5]和全球船舶自動識別系統數據來進行分析訓練研究。颱風路徑數據由中國氣象局熱帶氣旋資料中心提供,該中心網站提供了1949年以來西北太平洋海域熱帶氣旋每6 h的最佳路徑數據集。該數據集參數主要包括颱風路徑經緯度坐標、時間、強度等級等。同時,還獲取了同步的三維NCEP再分析環境場數據,該數據由美國國家海洋和大氣局(National Oceanic and Atmospheric Administration,NOAA)的國家環境預報中心開發和提供。該中心每天定時發布前一天4次的同化再分析數據,分別為00:00、06:00、12:00和18:00,數據空間解析度是2.5°×2.5°經緯網格,垂直方向26層(從地面到10 hPa)。該資料集分為大氣等壓面資料、地面(海表)資料、通量資料等。本文主要使用地面(海表)資料作為輔助分析。AIS資料[6]主要來自船舶上配備的船舶自動識別系統,通過連接船上全球定位系統(global positioning system,GPS)定位儀、測深儀、電羅經等設備,能夠自動採集並發射船舶實時的靜態信息和動態信息(船舶身份、船舶位置、吃水、航速、船舶艏向、船舶類型、船舶長度、寬度等),實時反映船舶航行狀態和海上交通態勢。本文採用AIS船舶靜態信息和動態信息進行分析,全球AIS一年的數據量約為300多億條。此外,由於船舶空間分布密度和距沿岸各港口的距離存在一定關係,所以這裡還引入了全球16 831個船舶停靠點的坐標信息。該數據主要包含了港口的地理坐標、名稱、所屬國家等信息。

3.3數據分析和處理方法

3.3.1多源異構數據預處理

預處理主要針對需要預測的船舶分布密度進行各種數據的匹配、插值處理、質量控制等步驟。這裡採用的數據特徵呈現多源異構性,包括從1~3維的不同領域和特徵信息的數據。需要針對計算船舶分布密度問題進行多源異構數據的預處理。最終獲得一套時空匹配的多源異構融合數據集,為後面的訓練和預測研究奠定基礎。這裡的船舶密度利用AIS數據進行網格化處理,然後針對每個網格的數據進行求和統計。

颱風最佳路徑數據採用文本格式保存,是混合數值和字元型信息保存的一維數組。首先從颱風最佳路徑數據選取過境南海海域的時段,針對這些颱風時段的數據,採用線性插值方法將6 h一次的定位數據插值到1 h的時間解析度。由於地理網格化的船舶密度可能和颱風中心距離密切相關,所以這裡還要利用地球坐標最近距離演算法求解每個網格中心點和颱風中心的絕對距離。NCEP再分析資料是採用氣象上標準的網路通用數據格式(network common data form, NetCDF)存儲的三維資料。由於時間解析度不高,這裡採用時間權重方法進行插值處理,計算式如下:

這裡P1~Pn表示需要獲得的第1~n個參數(主要包括氣壓、氣溫等),w1和w2表示每個時刻的再分析資料的時間權重, Pt1nPnt1和Pt2nPnt2表示前後兩個時間對應的參數。最後,將經過時間插值的三維數據插值到0.5°×0.5°(50 km)水平解析度進行匹配。經過特徵分析結果表明,災害天氣下的氣溫、相對濕度等參數的變化特徵不太明顯,與船舶行為的關聯性不大,而風場、氣壓和降水在災害天氣下有顯著的變化響應,可以作為災害天氣(颱風)的表徵參數。另外,從本算例可以看出,能夠影響船舶航行行為的特殊天氣情況主要為颱風、風暴潮(海嘯)等極端天氣情況。一般的天氣情況對船舶航行行為影響不顯著。在開展氣象環境對船舶行為影響分析時,可以重點以颱風、風暴潮等災害天氣情況為主要數據源,以風場、氣壓、降雨等數據為輔助數據進行分析。通過相關性分析進行變數篩選(過程圖片太多,考慮篇幅在此省去),選取與颱風最佳路徑最相關的氣象數據(風場、氣壓、降雨),刪除與颱風路徑相關性較小的氣象數據(氣溫、濕度)。由於以逗號分隔值(comma separated value,CSV)格式存儲的AIS數據受到信息傳輸、錯誤解碼等因素的影響,無法避免地會存在錯誤信息,因此需要對AIS數據進行清洗和插值補充,從而提高AIS數據的可用性和可靠性。這裡選取106°~115°E,10.5°~20.5°N範圍,按照小時解析度對AIS全年數據進行0.5°×0.5°網格上的分布密度計算,得到需要特徵庫數據集。最後,基於AIS網格數據,對全球船舶停靠點進行研究區域內的快速自動篩選,確定118個停靠點及相對每個船舶密度空間網格的距離因子。

在參數選擇過程中,根據一般經驗、特徵重要性排序和模型預測的誤差結果反饋對特徵參數做了篩選(刪除特徵重要性較低的參數)。最終選擇的特徵參數包括:網格距最近港口距離(distance)、每天時刻(ta,取00:00~23:00的整點)、網格距颱風中心距離(typhoon_distance)、颱風中心經度(typhoon lon)、颱風中心緯度(typhoon lat)、颱風年齡(ddt)、NCEP海面降雨場(rain)、NCEP海面風場(wind)、NCEP海面氣壓場(pressure)、網格船舶密度(density),共10個參數。

網格距最近港口距離(distance):由於交通流(AIS)與感興趣點(point of interest,POI)有關,其中感興趣點是指對交通流有明顯影響的地點,選取港口作為POI。

每天時刻(ta):白天和晚上船舶的行為活動存在差異,因此加入該特徵。

網格距颱風中心距離(typhoon distance):由於缺乏颱風作用距離參數,因此用颱風中心距網格距離來代替。

颱風中心經度(typhoon lon)、颱風中心緯度(typhoon lat):颱風位置影響船舶行為。

颱風年齡(ddt):颱風生成到消亡存在時間周期,船舶行為與颱風生成後的時間有關。

NCEP海面降雨場(rain)、NCEP海面風場(wind)、NCEP海面氣壓場(pressure):通過相關性分析選取與颱風相關的氣象參數降雨、風場、氣壓場。由於颱風路徑信息僅包含颱風位置和強度信息,缺乏空間變化,因此在此加入了氣象場數據。

網格船舶密度(density):模型的預測因子。

其中模型輸出為船舶密度,其餘9個與氣象、時間、POI相關的變數為模型輸入。從特徵庫資料隨機選取其中80%的數據作為訓練集,其餘20%的數據作為測試集。

3.3.2機器學習訓練模型選擇

針對需要預測的問題,選擇了3種主要的機器學習模型來訓練前面預處理的多源異構數據集。模型包括決策樹、Bagging和隨機森林方法。除了以上3種模型外,還可以選擇神經網路、支持向量機(support vector machine,SVM)、XGBoost等回歸模型,本文暫不做詳細探索。

決策樹模型是一種樹型結構(可以是二叉樹或非二叉樹),基於特徵對實例進行分類或回歸的過程。其每個非葉節點表示一個特徵屬性上的判定,每個分支代表這個特徵屬性在其值域上的輸出,而每個葉節點存放一個類別。使用決策樹進行決策的過程就是從根節點開始,測試待分類項中相應的特徵屬性,並按照其值選擇輸出分支,直到到達葉子節點,將葉子節點存放的類別作為決策結果。

Bagging是bootstrap aggregation的簡稱,它是一種有放回的抽樣方法。Bagging方法是多模型融合方法,它主要是為了解決單一分類器容易產生過擬合的問題。Bagging通過重複取樣,相同訓練的數據多了之後,能夠減少結果的方差,可以理解為綜合多個弱分類器的結果得到一個強分類器。

隨機森林[7]是通過構建多個弱分類器,使得最終分類效果能夠超過單個分類器的一種融合演算法。隨機森林可理解為由很多決策樹組成的森林。隨機意味著每棵樹之間沒有任何聯繫,都是獨立的。它也是按照Bagging的方法重複取樣,抽取的數量和樣本總量相等。但是在訓練樹的時候並不是把所有特徵都用上。假設總共有M個特徵。每次訓練一棵樹的時候,隨機抽取其中的m(m

分類與預測模型對訓練集進行預測得到的準確率並不能很好地反映預測模型未來的預測性能,為了能夠有效地判斷一個預測模型的性能表現,需要一組沒有參與預測模型建立的數據集(測試集),並在該數據集上評價預測模型的準確率。將數據分為訓練數據集、測試數據集,然後通過訓練數據集進行訓練,通過測試數據集進行測試。模型預測效果的評估方法採用均方誤差(MSE)、均方根誤差(RMSE)、平均絕對誤差(MAE)、正則均方誤差(NMSE)等。

3.4結果分析

3.4.1模型訓練

圖2顯示了採用決策樹、Bagging、隨機森林模型對特徵庫樣本的訓練結果,橫坐標為訓練集的船舶密度(可理解為真值),縱坐標為模型預測的船舶密度(預測值)。可以看出隨機森林模型的預測值與真值幾乎為一條直線,模擬結果遠遠優於決策樹和Bagging方法。說明隨機森林模型能夠很好地預測颱風天氣下船舶的密度變化。

圖2 決策樹、Bagging、隨機森林模型訓練結果

3.4.2誤差分析

採用均方誤差、均方根誤差、平均絕對誤差、正則均方誤差4項指標進行模型的誤差分析。模型訓練集誤差(見表1)和測試集誤差(見表2)顯示,隨機森林模型的誤差遠遠優於決策樹和Bagging法的誤差。

表1 訓練集誤差分析

表2 測試集誤差分析

表3和圖3顯示了隨機森林模型的特徵重要性降序排序結果。隨機森林對連續變數設置了兩種重要性,一種是平均均方誤差減少百分比(%IncMSE),另一種是平均節點不純度下降量(IncNodePurity)。變數重要性排名第1位的是颱風年齡(颱風生成後的時間);排名第2位的是每天的時刻,說明白天或夜晚船舶的行為響應不同;排名第3位的是網格距最近港口距離;排名第4位的是颱風中心緯度;排名第5位的是颱風中心經度;排名第6位的是氣壓場;排名第7位的是距颱風中心距離。風場和降雨場的影響較小,其原因可能是,颱風登陸帶來大風強降雨之前,船舶已經進入避風港,並將持續停留,直到大氣和降雨天氣好轉。另外,兩種特徵重要性定義不同導致其排序的結果也不同。這是由於預測變數船舶密度是空間變化的,而某些特徵因素是純時間(如颱風年齡),因此雖然在%IncMSE重要性上影響很大(加雜訊後的誤差),但由於缺乏空間分布信息,它們在IncNodePurity的重要性排序並不高。

表3 隨機森林模型特徵重要性排序

圖3 隨機森林模型特徵重要性排序

以上結果說明,在颱風等災害天氣下,船舶行為受到天氣作用的影響十分顯著。

由於影響船舶航行的水文氣象因素還有海浪、海冰、海流、海霧等[8],未來可以考慮在特徵資料庫中加入海浪、海霧等海洋環境數據,進一步提高模型預測精度。另外,由於在颱風作用半徑以外,對船舶行為影響較小,因此,應當加入颱風作用半徑的參數來修正各網格點距離颱風中心距離的參數。最後,還應當考慮加入K層交叉驗證(K-fold cross-validation),將K個模型在K個測試集上的準確率(NMSE/RMSE)的平均值作為模型的綜合性能評價指標,從而減少由於抽樣不均勻導致的訓練集和測試集的誤差變化。

4結束語

本文介紹了海洋大數據的特點與發展現狀,分析了海洋大數據行業的數據來源與特點,介紹了海洋大數據的關鍵技術,並使用機器學習中的決策樹、Bagging、隨機森林模型開展了海上船舶密度分布預測的大數據應用案例研究。目前,海洋大數據仍然面臨著諸多挑戰,海洋數據在不同行業間難以共享,數據缺乏標準化統一管理等。然而,隨著技術的發展,對海洋的認知和大數據技術的深入結合,海上信息服務應用與智能化管理必然將得到逐步提高。

作 者 簡 介

王冬海(1968-),男,中電科海洋信息技術研究院有限公司研究員,中國電子科技集團公司首席專家,長期從事信息系統總體、系統模擬、信息安全等前沿技術研究工作,對信息系統模擬和軟體工程有深入研究,在軟體配置管理方面有豐富的實踐經驗。

盧峰(1972-),男,中電科海洋信息技術研究院有限公司高級工程師,長期從事信息系統總體、信息處理技術等方向的研究工作,曾在微軟和聯想公司長期從事國內外大型系統總體設計,熟悉大數據挖掘技術,在軟體計算和服務平台方面有豐富的實踐經驗。現負責海洋大數據平台架構搭建及海洋信息處理技術研發。

方曉蓉(1990-),女,中電科海洋信息技術研究院有限公司助理工程師,主要研究方向為海洋大數據、海洋觀測數據分析、海洋模型數值模擬。

郭剛(1983-),男,中電科海洋信息技術研究院有限公司工程師,主要研究方向為大數據分析、信息安全。

《大數據》期刊

《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的科技期刊。

關注《大數據》期刊微信公眾號,獲取更多內容

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大數據期刊 的精彩文章:

TAG:大數據期刊 |