當前位置:
首頁 > 最新 > 通過機器學習讓醫療數據更好用

通過機器學習讓醫療數據更好用

在過去 10 年間,醫療數據已經從以紙質文件為主幾乎完全數字化為電子健康記錄。但是,理解這些數據涉及一些關鍵挑戰。

第一,供應商之間沒有共同的數據表示形式;每個供應商都使用不同的方式來構建他們的數據。第二,即使使用相同供應商的網站也可能存在很大不同,例如,他們通常為同一種藥物使用不同的代碼。第三,數據可能分布在多個表格中,一些表格包含患者就醫記錄,一些包含實驗室結果,其他的則包含生命體征數據。

快速醫療互操作性資源 (FHIR) 標準解決了其中的大多數挑戰:它具有一個堅實並且可擴展的數據模型並基於成熟的網路標準構建,正在快速成為個體記錄和批量數據訪問的事實標準。但是,為了實現大規模機器學習,我們需要一些補充:各種編程語言的實現,將大量數據序列化到磁碟的有效方法,以及允許分析大型數據集的表示形式。

我們高興地開源 FHIR 標準的一種 Protocol Buffers (簡稱 Protobuf) 實現,它可以解決這些問題。當前版本支持 Java,並且將很快支持 C++、Go 和 Python。對配置文件的支持也即將發布,還會推出一些工具,幫助用戶將舊數據轉換成 FHIR:

https://github.com/google/fhir

將 FHIR 用作核心數據模型

過去幾年,我們一直與眾多學術醫療中心合作,將機器學習應用於匿名病歷,我們需要正面解決醫療數據的複雜性,這一點已經變得非常明顯。確實,要讓機器學習有效用於醫療數據,我們需要從整體上了解每名患者隨著時間推移的情況。作為獎勵,我們想要一種可以直接用於臨床環境的數據表示形式。

儘管 FHIR 標準可以解決我們的大多數需求,但是為了使醫療數據比「舊」數據結構更加易於管理和確保大規模機器學習不依賴於供應商,我們認為引入Protobuf可以幫助應用開發者和(機器學習)研究人員使用 FHIR。

當前版本的 Protobuf

為了讓我們的 Protobuf 表示適合編程訪問和資料庫查詢,我們做了大量工作。提供的一個示例顯示了如何將 FHIR 數據上傳到 Google Cloud BigQuery 中並讓它可以用於查詢,我們將添加直接從批量數據導出上傳的其他示例。我們的 Protobuf 符合 FHIR 標準(這些緩衝區實際上是從此標準自動生成的),但可以實現更高級的查詢。

當前版本還不可以用於訓練 TensorFlow 模型,不過,敬請關注未來更新。我們打算開源儘可能多的近期工作,以便提升我們的研究在現實世界情景中的重現性和適用性。此外,我們還在與 Google Cloud 團隊的同事緊密合作,推出更多用於管理大規模醫療數據的工具:

https://github.com/GoogleCloudPlatform/healthcare

Be a Tensorflower

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

蘋果和IB將通過新的機器學習集成展開合作
白話機器學習之人臉識別原理簡介篇

TAG:機器學習 |