通過機器學習讓醫療數據更好用

最新 03-31

在過去 10 年間，醫療數據已經從以紙質文件為主幾乎完全數字化為電子健康記錄。但是，理解這些數據涉及一些關鍵挑戰。

第一，供應商之間沒有共同的數據表示形式；每個供應商都使用不同的方式來構建他們的數據。第二，即使使用相同供應商的網站也可能存在很大不同，例如，他們通常為同一種藥物使用不同的代碼。第三，數據可能分布在多個表格中，一些表格包含患者就醫記錄，一些包含實驗室結果，其他的則包含生命體征數據。

快速醫療互操作性資源 (FHIR) 標準解決了其中的大多數挑戰：它具有一個堅實並且可擴展的數據模型並基於成熟的網路標準構建，正在快速成為個體記錄和批量數據訪問的事實標準。但是，為了實現大規模機器學習，我們需要一些補充：各種編程語言的實現，將大量數據序列化到磁碟的有效方法，以及允許分析大型數據集的表示形式。

我們高興地開源 FHIR 標準的一種 Protocol Buffers (簡稱 Protobuf) 實現，它可以解決這些問題。當前版本支持 Java，並且將很快支持 C++、Go 和 Python。對配置文件的支持也即將發布，還會推出一些工具，幫助用戶將舊數據轉換成 FHIR:

https://github.com/google/fhir

將 FHIR 用作核心數據模型

過去幾年，我們一直與眾多學術醫療中心合作，將機器學習應用於匿名病歷，我們需要正面解決醫療數據的複雜性，這一點已經變得非常明顯。確實，要讓機器學習有效用於醫療數據，我們需要從整體上了解每名患者隨著時間推移的情況。作為獎勵，我們想要一種可以直接用於臨床環境的數據表示形式。

儘管 FHIR 標準可以解決我們的大多數需求，但是為了使醫療數據比「舊」數據結構更加易於管理和確保大規模機器學習不依賴於供應商，我們認為引入Protobuf可以幫助應用開發者和（機器學習）研究人員使用 FHIR。

當前版本的 Protobuf

為了讓我們的 Protobuf 表示適合編程訪問和資料庫查詢，我們做了大量工作。提供的一個示例顯示了如何將 FHIR 數據上傳到 Google Cloud BigQuery 中並讓它可以用於查詢，我們將添加直接從批量數據導出上傳的其他示例。我們的 Protobuf 符合 FHIR 標準（這些緩衝區實際上是從此標準自動生成的），但可以實現更高級的查詢。

當前版本還不可以用於訓練 TensorFlow 模型，不過，敬請關注未來更新。我們打算開源儘可能多的近期工作，以便提升我們的研究在現實世界情景中的重現性和適用性。此外，我們還在與 Google Cloud 團隊的同事緊密合作，推出更多用於管理大規模醫療數據的工具：

https://github.com/GoogleCloudPlatform/healthcare

Be a Tensorflower

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※蘋果和IB將通過新的機器學習集成展開合作
※白話機器學習之人臉識別原理簡介篇

TAG:機器學習 |