當前位置:
首頁 > 最新 > 華人團隊構建全球疫情實時追蹤系統 已被CDC、JHU使用

華人團隊構建全球疫情實時追蹤系統 已被CDC、JHU使用


目前該資料庫已有超過 2.25 億訪問量,並且被 522 個機構或組織使用。相關預印本近日在 arXiv 平台發布。

撰文 陳娉瑩、沈開

編輯 戚譯引

在新冠肺炎肆虐全球之際,一群在美留學生、華人為主的志願者團隊在北美華人網站「一畝三分地」的組織下,於 2020 年 1 月底開始匯總搜集北美實時疫情信息,整合全球數據,搭建了目前全世界最實時、廣泛、地理區分度最細的新冠疫情追蹤平台——「一畝三分地」新型冠狀病毒世界疫情動態追蹤平台 CovidNet(網址:https://coronavirus.1point3acres.com/ ),受到國際用戶一致好評。如今,CovidNet 已成為約翰霍普金斯大學(JHU)疫情追蹤平台和維基百科新冠全球大流行頁面的北美數據主要引用來源,並成為美國疾控中心(CDC)使用參考數據來源之一。目前該資料庫已有超過 2.25 億訪問量,並且被 522 個組織或機構使用。相關預印本已在 arXiv 發布。

「一畝三分地(1point3acres)」是彙集留學、就業、移民信息的北美華人論壇。CovidNet 的工程師團隊成員都屬於「一畝三分地」的全職工作人員;負責數據核查的志願者們通過網路招募加入,主要是華人群體或北美留學生,也有非華人成員,分散在不同的地方,通過網路聯繫。CovidNet 創辦人郭昱同時也是「一畝三分地」的創始人之一,目前在舊金山 Uber 公司擔任自動駕駛機器學習平台高級工程經理,和許多志願者一樣來自武漢。志願者中有數據科學家、工程師,也有各專業學生、學者、教授,他們加入小組的原因不盡相同,但都表達了對疫情中受影響群體的關注,並希望能為新冠疫情數據透明化盡綿薄之力。

資料庫中的北美數據提供細分到州/省-市/郡的新冠疫情追蹤,覆蓋北美市、郡共 3169 個,記錄了包括確診、死亡、治癒(recover)、檢測及住院數的實時數據。除此之外,資料庫還記錄了 188 個國家或地區的新冠確診、死亡、治癒數據,對於其中橫跨五大洲的 25 個疫情最嚴重的國家和地區,資料庫記錄了省區一級的統計數據。資料庫還在繼續添加更多國家和地區的分省、州數據。截至論文發布之日,此新冠資料庫是同類資料庫中覆蓋國家範圍最廣、實時性最強且地理區域顆粒度最細的疫情平台。

該資料庫不僅提供實時更新的數據追蹤網站以供公眾查閱,還提供 API 介面工具,以供研究者、學校、研究機構、平台、公司等使用。同時,對應的數據追蹤網站中提供了多種地理分布與時間序列的互動式數據可視化工具,包括細分到州/省-市/郡的互動式病例分布地圖、細分到州/省-市/郡的數據篩選與排序、全景的時間疫情趨勢折線圖、跨國家/地區/區域的疫情發展趨勢橫向比較動態展示圖等,以供用戶進行全球疫情的初步數據比對。

為了達到實時、精確、範圍廣、顆粒度精細的目標,團隊結合了人工主動搜索錄入、自動化數據抓取和匯總,以及用戶反饋線索的眾包方法,在疫情發展的不同階段對數據的展示和格式進行了多次創新改革,以保證數據能夠已最優形式滿足廣大用戶使用需求。

此新冠資料庫的數據抓取保持全天實時更新,使用原始官方數據及可靠的權威媒體報道作為信源。為保證全面控制數據準確性,團隊使用了多種方法優化了數據搜索、整理和發布的流程:

1. 團隊優先使用相較更為基層的衛生部門發布的最新數據更新數據平台,以解決更高層級衛生部門統計收集、發布時間滯後導致的數據不及時問題;

2. 為應對客觀原因導致的原始數據中的雜訊,如確診數目非常規的波動,或累計數字出現下降等情況,團隊通過對比多條信源來進行合理的修正,同時對相關地區的歷史數據進行全面複查;

3. 設置網頁前端發布的特定統計量變化限制,對比後端最新錄入數據與歷史數據,以防正在更新核查中的數據被錯誤的部署到網頁前端;如發現數據有異常波動,會有相應的志願者進行手工核查;

4. 在網站提供了用戶反饋入口,以方便網站用戶給志願者提供當地的最新疫情信息或新聞線索。大量的用戶報告提高了數據的及時性、準確性。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!


請您繼續閱讀更多來自 新浪科技 的精彩文章:

通古斯大爆炸新解釋:是某個天體「打了個水漂」
今日《自然》重磅:中國科學家找到強效新冠中和抗體