谷歌開源 FHIR 標準協議緩衝工具，利用機器學習預測醫療事件

知識 03-05

在上月 26 日，谷歌在 arXiv 上發表的一篇論文《Scalable and accurate deep learning for electronic health records》（ Alvin Rajkomar et al.，https://arxiv.org/pdf/1801.07860.pdf）。文中他們提出基於快速醫療保健互操作性資源（FHIR）格式的患者 EHR 原始記錄表示，利用深度學習的方法，準確預測了多起醫療事件的發生。

論文摘要如下：

使用電子健康記錄（EHR）數據的預測建模預計將推動個人化醫療並提高醫療質量。構建預測性統計模型通常需要從規範化的 EHR 數據中提取策略預測變數，這是一種勞動密集型過程，且放棄了患者記錄中絕大多數信息。我們提出基於快速醫療保健互操作性資源（FHIR）格式的患者全部 EHR 原始記錄的表示。我們證明使用這種表示方法的深度學習方法能夠準確預測來自多個中心的多個醫療事件，而無需特定地點的數據協調。我們使用來自兩個美國學術醫療中心的去識別的 EHR 數據驗證了我們的方法，其中 216,221 位成年患者住院至少 24 小時。在我們提出的序列格式中，這一塊 EHR 數據總計包含了 46,864,534,945 個數據點，包括臨床說明。深度學習模型對預測院內死亡率（AUROC 跨站點 0.93-0.94），30 天無計劃再入院率（AUROC 0.75-0.76），延長住院時間（AUROC 0.85-0.86）以及所有患者的最終診斷（頻率加權 AUROC 0.90）等取得了極高的準確度。在所有情況下，這些模型的表現都優於傳統的預測模型。我們還介紹了一個神經網路歸因系統的案例研究，該系統說明臨床醫生如何獲得預測的一些透明度。我們相信，這種方法可以為各種臨床環境創建準確的、可擴展的預測，且附有在患者圖標中直接高亮證據的解釋。

在這項研究過程中，他們認為若想大規模的實現機器學習，則還需要對 FHIR 標準增加一個協議緩衝區工具，以便將大量數據序列化到磁碟以及允許分析大型數據集的表示形式。

昨天，谷歌發布消息稱已經開源該協議緩衝區工具。下面為谷歌博文內容，雷鋒網編譯如下：

過去十年來，醫療保健的數據在很大程度上已經從紙質文件中轉變為數字化為電子健康記錄。但是要想理解這些數據可能還存在一些關鍵性挑戰。

首先，在不同的供應商之間沒有共同的數據表示，每個供應商都在使用不同的方式來構建他們的數據；

其次，即使使用同一個供應商網站上的數據，可能也會有很大的不同，例如他們通常對相同的藥物使用多種代碼來表示；

第三，數據可能分布在許多不同表格中，這些表格有些存在交集，有些包含著實驗數據，還有些包含著一些生命體征。

採用至少一個基本電子病歷系統並擁有經過認證的電子病歷系統的非聯邦急性護理醫院的百分比。Basic 的電子健康記錄（ Electronic Health Record ，EHR）滿足 EHR 系統的基本功能，Certified EHR 表示醫院已經與 EHR 有法律協議，但不等同於採用了 EHR 系統。

快速醫療保健互操作性資源（Fast Healthcare Interoperability Resources，FHIR，https://www.hl7.org/fhir/）作為一項標準草案，描述的是用於交換電子病曆數據格式和數據元以及應用程序界面，該標準由醫療服務標準組織 Health Level Seven International 制定。這項標準已經解決了這些挑戰中的大多數：它具有堅實的、可擴展的數據模型，建立在既定的 Web 標準之上，並且正在迅速成為個人記錄和批量數據訪問中事實上的標準。但若想實現大規模機器學習，我們還需要對它做一些補充：使用多種編程語言的工具，作為將大量數據序列化到磁碟的有效方法以及允許分析大型數據集的表示形式。

今天，我們很高興開源（https://github.com/google/fhir）了 FHIR 標準的協議緩衝區工具（http://suo.im/4woZmN），該工具能夠解決以上這些問題。當前的版本支持 Java 語言，隨後很快也將支持 C++ 、Go 和 Python 等語言。另外，對於配置文件的支持以及幫助將遺留數據轉換為 FHIR 的工具也將很快推出。

開源地址：https://github.com/google/fhir

協議緩衝區工具：https://developers.google.com/protocol-buffers/

FHIR 作為核心數據模型

在過去幾年中，我們一直在與學術醫療中心進行合作，利用機器學習的方法「去識別」（de-identified）醫療記錄（即剝離任何個人身份信息，以預測未來可能的情況，可以在癥候出現前預知患者的需求。），很明顯我們需要正視醫療保健數據中的複雜性。事實上，機器學習對於醫療數據來說非常有效，因此我們希望能夠更加全面地了解每位患者隨著時間的推移發生了什麼。作為紅利，我們希望擁有一個能夠直接應用於臨床環境的數據表示。

儘管 FHIR 標準能夠滿足我們的大多數的需求，但是使用醫療數據將比「傳統」的數據結構更容易管理，並且實現了對立於供應商的大規模機器學習。我們相信緩衝區的引入可以幫助應用程序開發人員（機器學習相關）和研究人員使用 FHIR。

協議緩衝區的當前版本

我們已經努力使我們的協議緩衝區表示能夠通過編程式訪問以及資料庫查詢。提供的一個示例顯示了如何將 FHIR 數據上傳到 Google Cloud 的 BigQuery（註：BigQuery 是 Google 專門面向數據分析需求設計的一種全面託管的 PB 級低成本企業數據倉庫。）並將其提供給外部查詢。我們也正在添加其他直接從批量數據導出並上傳的示例。我們的協議緩衝區遵循 FHIR 標準（它們實際上是由 FHIR 標準自動生成的），但也可以採用更優雅的查詢方式。

目前的版本還沒有包括對訓練 TensorFlow 模型提供支持，但未來將更新。我們的目標是儘可能地開源我們最近的工作，以幫我們的研究，使其更具可重複性並能夠適用於現實世界的場景當中。此外，我們正與 Google Cloud 中的同事進行密切合作，研究更多用於管理醫療保健數據的工具。

via Google Blog， AI 研習社編譯

NLP 工程師入門實踐班：基於深度學習的自然語言處理

三大模塊，五大應用，手把手快速入門 NLP

海外博士講師，豐富項目經驗

演算法 + 實踐，搭配典型行業應用

隨到隨學，專業社群，講師在線答疑

新人福利

關注 AI 研習社（okweiwu），回復1領取

【超過 1000G 神經網路 / AI / 大數據，教程，論文】

基於深度學習的醫療影像論文匯總（Deep Learning Papers on Medical Image Analysis）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！