當前位置:
首頁 > 最新 > 利用搜索引擎數據模擬疾病空間分布

利用搜索引擎數據模擬疾病空間分布

實時監測流行病的傳播和分布,能夠為公共衛生部門決策提供科學參考,進而控制其傳播範圍和影響力度。作為有效的分析及可視化工具,GIS在空間流行病學領域發揮著越來越大的作用。

GIS數據來源豐富,除了官方權威部門採集的數據,也有由大量非專業人員志願獲取的,被稱為眾源地理數據,其中就包括了帶有位置信息的搜索引擎數據,這是一種典型的時空大數據,它具備的泛在性、高時效性使得其在挖掘社會現象時空規律、發現空間模式特徵、預測時空演變規律方面具有重要作用。

各國現有流感監控方法主要是匯總哨點醫院上報的流感樣病例(ILI),雖然結果準確,但時間上有延遲,如中國國家流感中心發布的流感周報一般有1~2周延遲。因此,許多新方法應用到了流感快速監測中,如根據電話諮詢量、藥物銷量、學校和企業缺席人數來推測流感發病率。

自從Ginsberg等利用Google的搜索數據來探測流感流行趨勢以來,國內外越來越多的科研工作者將互聯網的搜索引擎、社交網路和網路新聞媒體這3類大數據應用到流感監測中。處理以上數據使用的方法主要包括多元回歸分析及支持向量機、人工神經網路等機器學習方法,其中回歸分析仍然是應用廣泛且效果較好的方法之一。

過往的研究主要以發病數的時間序列為研究對象,關注研究區域整體的發病情況,而對於研究區域內部空間分布的研究較少,沒有充分利用大數據中包含的空間信息。本文在多元回歸分析的基礎上,使用時空地理加權回歸(geographically and temporally weighted regression, GTWR)進行建模,充分利用搜索引擎數據中的位置信息,試圖構造能更好模擬我國流感空間分布的模型,為空間流行病學研究和公共衛生決策提供支持。

1 模型與方法

1.1 最小二乘線性回歸模型

OLS模型是最基本的回歸方法,也是所有空間回歸分析的正確起點。它適用於回歸關係具有全局空間穩定性的情況,可為變數或過程提供一個全局模型,用唯一的回歸方程表示為

(1)

式中,Y為因變數,表示實際發病數;X1到Xn為解釋變數,表示關鍵詞的搜索指數;β為回歸係數,表示對應的解釋變數與因變數之間關聯強度和類型;ε為隨機誤差項。若回歸殘差在統計上呈現明顯的空間自相關,OLS回歸的結果不可靠,需要使用局部回歸方法來提高模型穩定性。

1.2 地理加權回歸模型

若流感發病數與關鍵詞百度指數之間的關係存在空間非平穩性,則模型中變數的關係是基於空間位置的函數。GWR模型可為變數或過程提供局部模型,能夠有效探測空間非平穩特徵,它對每個目標要素帶寬範圍內的要素進行參數估計,通過引入地理加權函數對式(1)進行擴展,模型可表示為

(2)

式中,(ui,vi)表示第i個目標要素的坐標;β(ui,vi)為第i個目標要素的截距常量;βn(u,v)為連續函數;βn(ui,vi)為該函數在i點的值。

本文使用高斯函數作為GWR模型的空間核函數。帶寬的選擇對GWR模型有較大影響,它的形狀和範圍取決於核類型、帶寬方法等參數,本文使用固定核寬,根據模型的赤池信息準則(Akaike information criterion,AIC)來確定最優帶寬。

1.3 時空地理加權回歸模型

除了空間因素外,時間因素也可能導致流感發病數與關鍵詞百度指數的關係呈現非平穩性,時空地理加權回歸能夠有效解決回歸模型中無法同時考慮時間和空間異質性的問題。它使用三維坐標來定義時空位置,相應地,式(2)可擴展為

(3)

式中,(ui,vi,ti)為第i個目標要素的三維坐標;β(ui,vi,ti)為該要素對應的截距常量;βn(u,v,t)為連續函數,βn(ui,vi,ti)為該函數在i點的值。採用局部加權最小二乘估計可計算出參數的估計值為

(4)

式中,W(ui,vi,ti)=diag(αi1,αi2, …,αin)表示n階時空距離權重對角矩陣(n為樣本數);對角元素αij(1≤j≤n)表示點j對觀測點i的影響,它與時空距離有關。點j到觀測點i的時空距離越近,對估計結果的影響越大。因此,與GWR模型相似,時空距離衰減函數直接影響參數的估計,本文中GTWR模型同樣使用高斯核函數。由於位置和時間使用不同的單位系統來計量,它們的尺度效應也不相同,因此引入橢圓坐標系統來表示時空距離,在給定空間距離dS和時間距離dT的情況下,時空距離表示為

(5)

式中,λ和μ分別為平衡空間距離和時間距離的比例因子,選擇合適的值後dST就能度量時空距離。設k=μ/λ,若k為0,GTWR模型就簡化為GWR模型,若k為無窮大,模型將簡化為時間加權回歸模型(TWR)。具體的時空距離比例因子和最優帶寬通過計算AIC值使其達到最小來確定。

1.4 技術路線

本文的試驗數據包含訓練集和驗證集兩部分。在對訓練集中的發病數和相關關鍵詞的搜索指數進行雙變數相關分析的基礎上,篩選出與流感發病顯著相關的關鍵詞。通過構建OLS模型並觀察VIF值(方差膨脹因子)來檢驗自變數之間的共線性,利用主成分分析法消除共線性以降低模型估計誤差。再採用消除共線性後的主成分作為自變數,分別使用OLS、GWR和GTWR構建流感空間分布模型,最後對以上回歸分析方法的模擬結果進行精度驗證和對比。將驗證集的自變數代入擬合效果最佳的模型中,得到各省流感發病數的預測值,與實際分布情況進行對比驗證。技術路線如圖 1所示。

2 數據處理

2.1 數據獲取

本文使用流感官方發病數據作為模擬目標,數據來源於公共衛生科學數據中心(http://www.phsciencedata.cn/Share/index.jsp),樣本採集時間範圍為2013年10月至2014年3月,統計全國範圍各省各月的流感發病數量,由於香港、澳門、台灣、西藏的數據難以獲取,下文的分析中將不包括上述地區。將以上時間範圍和地點的流感相關關鍵詞的搜索量作為自變數,已有的國內外相關研究大多使用谷歌趨勢作為數據源,但百度佔據了中國84.5%以上的份額,因此本文使用的搜索引擎數據來自於百度指數網站(https://index.baidu.com/)。

以上試驗數據被劃分為訓練集和驗證集兩個部分,在模型建立階段均選取2013年10月至2014年2月的試驗數據作為模型訓練樣本,用於估計回歸參數,使用2014年3月的試驗數據作為驗證集,用於對模型模擬流感空間分布的效果進行驗證。

2.2 關鍵詞選取

不同關鍵詞在某一特定時間地點對應不同的搜索頻率,它的選取直接影響模型結果,因此必須選擇與流感發病高度相關的關鍵詞。本文選取的關鍵詞的百度指數與流感發病數的相關係數大於0.5,並且要求關鍵詞在語義上與流感相關。若同時受到其他變數的影響,與流感無關的關鍵詞也可能與發病數有很高的相關係數。Ginsberg等從五千萬個搜索詞中選取了相關係數最高的45個,計算量過大,不具有可重複性。以往的研究表明,越多的關鍵詞不能保證越高的模型擬合度,對於一個相對精確的模型,增加一個關鍵詞的邊際貢獻並不顯著,反而增大了計算量。

依據以上原則,結合相關文獻[4, 12-13]選取了咳嗽、發燒、喉嚨痛、H7N9、頭痛、肺炎、感冒、禽流感、流感、甲流、流感癥狀、流感病毒、流鼻涕等13個關鍵詞,分別用X1至X13表示,以上關鍵詞的百度指數均在0.01水平上與流感發病數顯著相關,具體的相關係數見表 1。

表 1 各關鍵詞搜索量與流感發病數的相關係數

2.3 利用主成分分析消除變數共線性

使用X1至X13作為解釋變數,發病數Y作為因變數,利用普通最小二乘法(OLS)建立流感空間分布模型,再通過觀察VIF值檢驗自變數之間的共線性。模型校正後的R2值為0.688,說明該模型整體擬合效果較好。但是各解釋變數對應的VIF值較大,最小值為8.167,最大達到68.366。一般認為VIF值大於7.5是變數間共線性的觸發點[14],該模型解釋變數的組合存在冗餘,這會導致模型變得不可靠,因此需要通過降低解釋變數維度來消除共線性,進而減少模型估計誤差。

對關鍵詞的百度指數X1至X13運行主成分分析,所有關鍵詞的共同度均大於0.6,根據特徵值大於1的準則可提取3個主成分,分別用PC1、PC2、PC3表示,其累積方差貢獻率為82.76%,可較好地代表原始數據。

3 流感空間分布模型

3.1 基於OLS的空間分布模型

使用消除共線性後的3個主成分作為自變數,流感發病數作為因變數,進行OLS多元線性回歸,得到模型參數估計值及模型統計診斷結果見表 2。

表 2 OLS模型參數估計

經過主成分分析後所有變數的係數均通過t檢驗,而且自變數之間幾乎不存在共線性,模型校正R2值也提高到了0.737,表明以上主成分可用於進一步構建流感空間分布的局部模型。

3.2 基於GWR的空間分布模型

使用相同的數據集,基於地理加權回歸構建流感空間分布模型,結果見表 3,表中用四分位數來表示各參數的變化情況。

表 3 GWR模型參數估計

GWR模型的擬合度為0.915,與OLS模型相比有大幅度的提高。在不同空間位置上,GWR模型的參數估計值存在較大變化,這一變化表明,各解釋變數對發病數的影響作用大小甚至正負都不一致。過往的研究也表明,網路搜索行為存在一定的空間差異性特徵,不同地區不同屬性的關鍵詞與真實病例數有不同的相關性[15],而OLS模型未能考慮這種變化特徵。

3.3 基於GTWR的空間分布模型

進一步運用GTWR模型對訓練集中的數據進行分析並構建流感空間分布模型,模型參數估計值及性能指標見表 4。

表 4 GTWR模型參數估計

結果表明,模型可解釋實際發病數變化的百分比進一步提高到了95.9%。在不同的時間和空間上,GTWR模型參數估計值的變化程度大於GWR模型。AIC值是模型性能的另一種度量,用於比較不同的回歸模型,一般情況下,簡單的全局模型具有更好的可操作性和解釋性,而複雜的局部模型有更好的擬合度,若擬合度差異不大,應盡量選擇簡單的模型。AIC值考慮了模型複雜度,具有越小AIC值的模型性能越好,不同模型之間的AIC值相差超過3,表明模型性能差異顯著。可以看出,AIC值從OLS的2 313.12降低到GWR的2 195.12及GTWR的2 115.10,降低幅度遠遠大於3,說明模型之間存在顯著差別。殘差是模型無法解釋的部分,從OLS模型到GTWR模型,殘差平方和(residual squares,RSS)逐漸降低。

雖然GTWR模型相對GWR模型的擬合度有所提升,但GWR模型相對OLS模型的提升更大,AIC值的變化也呈現出這樣的特徵,可能的原因是試驗數據的時間跨度相對較小,而空間跨度較大,導致時間非平穩性的影響要小於空間非平穩性。綜上可見,由於回歸因素中存在時空非平穩性,而GTWR模型同時考慮了時間和空間非平穩性的影響,因此能更好地模擬流感發病的空間分布。

4 GTWR模型的驗證

使用回歸分析方法對現象建模後可用於估算其他時間的數值。在使用訓練集建立模型,並比較模型擬合效果的基礎上,選用GTWR模型對流感發病數進行估算,把驗證集的解釋變數即3個主成分代入回歸計算所得的模型中,得出2014年3月各省發病數的估計值。將未參與模型參數估計的3月各省實際發病數據作為模擬目標值用於與估算值進行對比,如圖 2所示。

從圖 2可以看出,發病數的估計值與真實值基本吻合,模型能準確識別流感高發地區和低發地區,尤其在高發地區模擬效果更佳,但低發地區的擬合情況較差,可能是由於流感疫情嚴重的地區產生的搜索信息更為全面,使得模型對高值的估算較為準確。為了進一步驗證模型的預測能力,可通過對估計值與實際值進行空間相關性分析來比較兩者的接近程度。結果表明,估計值與實際值相關係數達到0.956,在0.01水平上顯著相關,說明結合GTWR模型和搜索引擎數據可以較為準確地模擬流感發病的空間分布。

5 結 語

本文依據關鍵詞的百度指數與流感發病數之間的相關性進行關鍵詞選取,用於構造回歸模型;針對回歸分析中經常存在的多重共線性問題,使用主成分分析法消除變數共線性;為了表達模型的時空非平穩性,構建時空地理加權回歸流感空間分布模型。

研究結果表明,流感發病數與相關關鍵詞百度指數之間存在明顯的時空非平穩性,與全局回歸模型相比,變係數的局部回歸模型能顯著提高模型擬合程度,其中時空地理加權回歸模型效果最佳,結合搜索引擎數據能準確識別流感高發地區,實時監測流感發病空間分布情況。該方法較常規監測方法具有更高的時效性,而且數據獲取和計算成本低廉,可用於早期預警,成為傳統疾病監測方法的有效補充。

原文編輯 | 測繪通報授權發布

本期編輯 | 張磊

GeoTalks

測繪出版社創立的

科技交流平台

重點關注Geo領域的科技和人物

覺得不錯,請點贊!

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 GeoTalks 的精彩文章:

中國雷達干涉測量技術的領路人——夏耶先生

TAG:GeoTalks |