漆海霞皇甫行健：大數據在國際關係領域的應用前景

新聞 01-17

當前大數據已經在諸多領域得到應用，與我們的生活息息相關。例如，打開網路我們就會收到關於購物的推薦廣告，進入電子郵箱時就會看到系統自動識別的垃圾信件等，這些現象背後均與大數據和人工智慧密不可分。然而，與之形成對比的是，在國際關係研究領域，大數據似乎並未得到普遍應用。那麼大數據在國際關係領域應用前景究竟如何呢？筆者嘗試就此作一番探究。

國際關係數據存在特殊性

大數據顧名思義是數據量巨大的數據，有時也被稱為海量數據。隨著互聯網技術的應用和普及，人類社會中產生了越來越多的數據，例如網路發言、網路購物、圖片、音頻和視頻等。對於這些數據的挖掘和研究，有助於科研的創新和企業的發展。因此，我們可以看到大數據以及人工智慧演算法在我們生活中的諸多方面得到了普遍應用。

然而與在國內社會領域得到普遍應用的情況不同，國際關係研究領域似乎尚未對大數據加以深入探究。可以看到，無論是理論前沿還是國際關係熱點，我們都很難看到大數據的應用，這與國際關係研究的對象有關。國際關係的研究問題往往為高政治領域，例如國際衝突與戰爭、同盟締結與破裂等現象，而戰爭與結盟等現象的發生次數是有限的，樣本量往往很難上萬，依靠傳統資料庫就足以解決。這導致國際關係主流資料庫的數據規模都較小，例如戰爭相關因素資料庫（COW）、烏普薩拉衝突資料庫（UCDP）、奧斯陸國際和平研究所的武裝衝突數據（ACD）、同盟協議資料庫（ATOP）等。由於這些主流資料庫都可以免費使用，其變數、指標和維度均受到國際關係專業人士的認可，因此得到了廣泛應用。

大數據在國際關係領域的應用現狀

由於專業特性，大數據在當前的國際關係研究領域似乎較少有用武之地，然而隨著數據挖掘的深入，也有一些國際關係研究開始將大數據作為研究的變數之一。首先，比較具有應用前景的有GIS地理信息系統（Geographic Information System）提供的地理分布數據有助於學者對空間數據進行建模，使既往研究中長期被忽視的地理因素得以重回大家的視野。其次，全球夜間燈光數據也具有應用價值，該數據由美國國防氣象衛星計劃（DMSP）的衛星觀測所得，比較客觀地反映了各國/地區的生產、生活狀況，可以替代GDP成為度量經濟活動的可行指標之一。再次，谷歌（Google）公司提供的 GDELT全球事件數據項目（GDELT Event Database）提供了全球100多種語言的媒體、網頁上的事件信息，時間跨度為1979年至今，數據量達億級，包括國家、事件類型、地理位置等多個維度。除此以外，學者們也可以通過採用網路爬蟲技術抓取網路上自己感興趣的信息，然後再對自己挖掘的數據進行文本分析、自然語言處理和圖像識別等技術加工。

根據以上分析，我們可以看到，大數據在國際關係領域的應用存在局限。第一，從研究主體上看，傳統國際關係資料庫大部分關注的主體是國家，而大數據的主體則出現向微觀個體轉變的趨勢，例如網路發言或微信等自媒體上的數據都是以個人為主體，因此應用大數據有助於我們對於輿論的判斷和選舉的民情進行評估。第二，從時間上看，大數據藉助於新技術而出現，例如網路、衛星等，因此大數據的時間段往往集中於最近數十年，這導致對於一些涉及較長時間段的普遍性理論，例如戰爭與和平問題，目前的大數據似乎難以提供有力的幫助。第三，從數據質量看，大數據的質量有待提高，例如應用自然語言處理技術從新聞報道中獲得的大數據，儘管有量大和速度快等優點，但是這類數據受到新聞報道者偏好的影響很大，有些新聞會重複報道，有些偏遠地區的事件則被忽視。例如近年來民眾似乎對歐洲「恐襲」印象深刻，然而從發生次數看，不論是與2010年以前的歐洲「恐襲」次數比較，還是與其他地區「恐襲」頻率比較，近年的次數並不多。顯然這一現象與全球媒體對歐洲的密切關注有關。因此，研究人員要對挖掘出來的大數據進行清洗，排除重複報道、錯誤報道、有傾向性的報道等因素的影響。第四，大數據不一定包括總體，在統計中，隨機抽樣技術是為了盡量使樣本能夠體現出總體的特徵，然而不能因為數據量的巨大就判定大數據能代表總體。例如，在考慮民情輿論時，根據網路發言大數據得到的初步判斷可能是有偏差的，因為網路言論只能表明那些樂於在網上表達意見的人群的立場，而沒有考慮到不愛上網的人群和上網不愛發言的人群的立場。

演算法應用提高預測準確率

在李世石與AlphaGo的人機大戰中，機器學習、深度學習演算法對AlphaGo的獲勝起了重要作用，這些演算法同樣對於國際關係預測具有重大幫助。在傳統回歸方法中，統計模型的假設檢驗需要對樣本數據的分布做出假定，例如正態分布、卡方分布和Ｆ分布等，從而進行進一步計算。這一方法的缺陷是，如果樣本數據的分布不符合假定，則結論不一定成立。大數據中常用的機器學習演算法主要採用交叉驗證，將數據分為訓練集和測試集兩類，先用訓練集建模，然後用測試集加以檢驗，可以規避傳統回歸中對分布假定帶來的不足。目前國際關係學界也應用了一些演算法進行預測，例如樸素貝葉斯模型、Logistic模型、隱馬爾可夫模型、神經網路等，取得了較好的預測準確率。

然而，機器學習、深度學習等演算法往往關注的是變數間的相關關係，而較少考慮因果關係。即使根據某些演算法能夠提高預測準確率，研究人員也很難對模型中各變數的作用機制加以解釋。例如神經網路演算法可以根據輸入的數據得出結果，但沒法給出被擬合函數的數學表達式，整個過程是黑箱操作。此外，神經網路結果對於參數十分依賴，然而調參沒有客觀標準，由研究人員憑經驗決定。由於以上特點，機器學習、深度學習演算法往往被用於政策應用或者現實生活，而較難給國際關係領域帶來重大理論突破。

在大數據時代，數據挖掘技術使研究人員可以獲得大量過去難以得到的數據，這對國際關係學科的創新具有重大推動作用。然而，根據國際關係研究的特點，大數據及相關演算法在國際關係領域存在應用界限，我們一方面要充分利用新技術帶來的研究創新空間，另一方面也不必過度迷信大數據，正確認識到大數據的優勢與不足，推進學術創新。

（作者單位：清華大學國際關係學系）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 中國社會科學網 的精彩文章:

※「實踐教學與卓越新聞傳播人才培養創新」高峰論壇在京舉行
※第二屆非傳統安全前沿理論研討會在中山大學召開

TAG:中國社會科學網 |

漆海霞 皇甫行健：大數據在國際關係領域的應用前景

漆海霞皇甫行健：大數據在國際關係領域的應用前景