謝國彤：疾病預測的機器學習、深度學習和經典回歸方法

新聞 05-06

新智元專欄

作者：謝國彤

【新智元導讀】AI在醫療中的應用場景十分複雜也十分重要，包括疾病的診斷、預測、治療和管理等。有感於「搞人工智慧技術的人不知道醫療里重要又可解的問題是什麼，搞醫療的人不知道技術究竟能幫到什麼程度」，前 IBM 認知醫療研究總監、平安醫療科技研究院副院長謝國彤博士針對疾病預測技術的核心概念、主要方法和發展趨勢，帶來詳細解讀。

謝國彤：疾病預測的機器學習、深度學習和經典回歸方法

去年在新智元上寫了《我看到的靠譜醫療 AI 應用場景和關鍵技術》，原本計劃要寫個「連續劇」的，後來諸多事情就耽誤了。一晃快一年了，現在推出第二篇，疾病預測技術的概念、方法和趨勢，淺析前文中提到的疾病預測技術的核心概念、主要方法和發展趨勢。

疾病預測的核心概念

疾病風險預測核心解決的問題是預測個體在未來一段時間內患某種疾病（或發生某種事件）的風險概率。疾病預測會根據某個人群定義，例如全人群、房顫人群、心梗住院人群等，針對某個預測目標，例如腦卒中、心衰、死亡等，設定特定的時間窗口，包括做出預測的時間點，和將要預測的時間窗，預測目標的發生概率。

利用真實世界數據進行疾病預測面臨如下一些技術挑戰：

數據質量差：電子病曆數據中很多欄位有缺失，導致關鍵特徵無法提取；甚至有無意或有意的輸入錯誤，給數據分析造成了噪音。
數據維度高：醫療的數據涉及患者的病情主訴、既往病史、家族遺傳史、個人史、體格檢查信息、診斷、檢驗、檢查、用藥和手術等方面。一個疾病登記庫中每位患者的數據往往達到 2000 維，而真實電子病歷的數據甚至會達到幾萬維。如此高維度、稀疏的數據給預測帶來了挑戰。
數據時序性：患者在一段時間內會有持續的醫療記錄，如住院期間的多次記錄，或者一年內的多次門診記錄。如果涉及可穿戴式設備收集的實時數據，更是每分每秒都在變化。為了從數據中更好的提煉預測信號，必須對數據的時間序列信息進行分析挖掘。
數據不均衡：很多疾病的發病率都不高，比如房顫患者發生腦卒中的平均概率是 10%，腦卒中患者出院後導致殘疾的平均概率是 4%。造成數據中正例相對較少，很不均衡，對機器學習演算法的要求更高。

疾病預測的主要方法

疾病預測的主要方法可以簡單的分為經典回歸方法、機器學習方法和深度學習方法三大類。下面分別用三篇論文舉例介紹一下。

基於經典回歸方法的疾病預測

傳統的疾病風險預測主要基於 Cox 比例風險回歸模型（簡稱 Cox 模型）及邏輯回歸模型。例如，[Wang et al. 2003] 發表於 JAMA 的文章利用 Cox 模型，基於弗雷明漢（Framingham）心臟研究來建立房顫患者發生腦卒中及死亡的風險預測模型，方法流程見圖 1。該研究用患者在確診房顫前最近一次檢查的數據作為風險因素的基線數據，觀測的起點為房顫確診，觀測時間窗為 10 年。基於之前房顫預測腦卒中的研究，兩個非常重要的連續變數，即年齡和收縮壓被直接放入了多變數模型。其他的風險因子採用逐步回歸法確定，符合檢驗標準 P<0.10 的變數會被放入模型，包括服用抗壓藥物、有心肌梗塞或充血性心臟衰竭病史（在確診房顫前）、有卒中或短暫性腦缺血發作史（在確診房顫前）、吸煙、心電圖判斷的左心室肥厚、糖尿病和臨床性心臟瓣膜病。

謝國彤：疾病預測的機器學習、深度學習和經典回歸方法

圖 1 基於 Cox 回歸的腦卒中及死亡風險預測

該研究 [Wang et al. 2003] 的統計分析方法採用了 Cox 比例風險模型（proportional hazards model），是由英國統計學家 D.R. Cox 提出的一種半參數回歸模型。該模型以生存結局和生存時間為應變數，可同時分析多個因素對生存期的影響，能分析帶有刪失生存時間的數據，且不要求估計數據的生存分布類型。Cox 模型在醫學研究中得到了廣泛的應用，是傳統生存分析和風險預測中應用最多的多因素回歸分析方法。

腦卒中預測模型的評估考慮了校準度（calibration）及區分度（discrimination）。校準度是指預測結果和實際結果的一致度，用 Hosmer-Lemeshow（H-L）統計量評價；區分度採用 c 統計，即受試者工作特徵曲線（receiver operating characteristic curve，又稱 ROC 曲線）下的面積（AUC）。腦卒中預測模型和腦卒中或死亡預測模型的 H-L 統計量分別為 7.6 和 6.5，腦卒中預測模型的 AUC 為 0.66，而腦卒中或死亡預測模型的 AUC 為 0.70。

基於機器學習方法的疾病預測

儘管傳統的回歸方法在疾病預測方面有廣泛的應用，但這些方法在預測準確度和模型可解釋方面，都仍有提升的空間。近年來，機器學習領域的特徵選擇和有監督學習建模方法越來越多地用於疾病預測問題。一些機器學習方法可以提高預測模型的可解釋性，例如決策樹方法。另一方面，一些較新的機器學習方法可以帶來更好的預測性能。

2010 年發表於 KDD 的文章 [Khosla et al. 2010] 採用了特徵選擇和機器學習方法來預測 5 年內的腦卒中發生率。該研究的數據來自心血管健康研究(CHS) 數據集，主要針對 65 歲以上人群。該數據記錄了 1989-1999 年 5021 位患者將近 1000 個的屬性數據，包括醫療檢查，問卷，電話聯繫等。預處理後最終的數據集包括 4988 個樣本，其中 299 個個體發生了腦卒中，共包含 796 個特徵。數據被隨機分成 9：1 的訓練集和測試集，同時保證正負樣本比例不變，方法流程見圖 2。

謝國彤：疾病預測的機器學習、深度學習和經典回歸方法

圖 2 基於機器學習的腦卒中風險預測

該研究採用了四種方法進行缺失值填充，包括均值填充、中位數填充、線性回歸及期望最大化方法；特徵選擇方法有 3 種，包括前向特徵選擇、L1 正則化和保守均值特徵選擇 (μ - σ)；建模時嘗試了支持向量機（SVM）和基於邊緣的刪失回歸方法。使用 L1 正則化邏輯回歸進行特徵選擇，然後使用 SVM 進行預測，採用 10 倍交叉驗證的平均測試 AUC 為 0.764，優於 L1 正則化 Cox 模型。將各種特徵選擇演算法與預測演算法相結合的平均顯示，保守均值和基於邊緣的刪失回歸相結合在 AUC 評價標準中能達到 0.777，為性能最佳的結果。

基於深度學習方法的疾病預測

近年來，深度學習技術飛速發展，對圖像識別、語音識別、自然語言理解等多個領域產生了顛覆性的改變。對於電子病曆數據分析方面，也已有一些研究利用深度學習方法來建立疾病風險預測模型，採用了 CNN 或 RNN 的模型。

[Cheng et al. 2016] 基於 30 余萬患者為期 4 年的電子健康檔案 (EHR) 數據，採用 CNN 網路來預測未來的疾病發生事件。研究的關鍵問題是如何從電子健康檔案的既往時序數據出發，建立有效模型，預測患者疾病發生的風險概率。該研究的數據集來源於 319,650 例患者為期 4 年的真實電子健康檔案，抽取慢性心衰（CHF，充血性心力衰竭）和慢阻肺（COPD，慢性阻塞性肺病）相關數據，其中 CHF 測試數據集包括 1127 正例患者，3850 負例對照；COPD 測試數據集包括 477 正例患者，2385 負例對照。該研究採用卷積神經網路 (CNN) 作為有監督學習模型，首先將每個患者的電子健康檔案數據簡化映射為二維 EHR 矩陣，縱軸為患者臨床事件的類型，對應到 ICD-9 的編碼，橫軸為患者臨床事件的發生時間，以天為計算單位。考慮 EHR 矩陣相關的特點，該研究基於以下假設建立卷積神經網路模型：1）假設臨床事件之間不存在相關性；2）同一臨床事件在時間上存在相關性；3）不同患者入院的時間長度不同，體現為 EHR 矩陣的大小不一致。文章最終採用了 INPUT-CONV-POOL-FC 共四層的卷積神經網路模型，方法流程如下圖 3 所示。

謝國彤：疾病預測的機器學習、深度學習和經典回歸方法

圖 3 卷積神經網路模型

因為患者的電子健康檔案矩陣是變長的，所以沿時間軸被分割為不同時段子矩陣，然後先針對每個子矩陣提取特徵，再將不同子矩陣的特徵集成。按照分割、提取、集成步驟的不同，該研究採用了幾種不同的集成方法，然後比較不同的方法在慢性心衰和慢阻肺兩組測試數據集上的預測性能。最終發現綜合分割、提取、集成的混合策略 SF-CNN 效果最好。

目前更多的人嘗試用RNN（Recurrent Neural Network）的方法來分析電子病歷中的臨床事件之前的時序關係（Temporal Relation）。[Chio et.al 2016] 在心衰（HF，Heart Failure）的預測上率先使用了基於RNN的方法，基於3884個正例和28,903個負例數據，時間跨度從2000年5月，到2013年5月共3年的時間。針對單個臨床事件的建模採用了自然語言理解中常用的one-hot向量的方式，把任何一個臨床事件都表示成N維的向量，但向量的最後一位是事件發生時間距離預測時間的間隔，類似於一個時間戳（timestamp）。然後使用了GRU（Gated Recurrent Unit，門循環單元）從每個輸入的臨床事件向量計算相應的隱狀態，在最終的隱狀態上應用邏輯回歸模型計算最後的HF風險概率。跟LR（Logistic Regression），SVM和KNN等多種經典回歸或機器學習方法試驗對比後發現，基於RNN方法的預測AUC有提高。

疾病預測技術小結

從以上針對經典回歸方法、機器學習方法和深度學習方法的分析可以發現，疾病預測技術必要的組成部分包括數據補全、特徵表示、特徵選擇和預測建模等幾個關鍵步驟，總結見表 1。

謝國彤：疾病預測的機器學習、深度學習和經典回歸方法

表 1 疾病預測方法分析對比

從中可以看出:

預測建模的方法本身並沒有太多的突破：除了 [Khosla et al. 2010] 融合了 SVM 和 Cox 回歸的特性發明了基於邊緣刪失的回歸方法，絕大多數的工作創新集中在特徵表示和特徵選擇。

患者特徵從基於向量的表示方法向時序矩陣轉變：經典的機器學習和統計方法普遍採用基於向量的表示方法，採用多種特徵選擇演算法提取最有預測能力的特徵。最新的深度學習的方法採用時序矩陣或時序向量的方法，盡量捕捉真實世界數據中的時序信號。

深度學習方法變革了特徵提取方法，但降低了可解釋性：在特徵選擇時通過 CNN 或 RNN 的方法對原始特徵進行多層的變換，把原始特徵映射到新的空間中，提高分類的能力，但同時降低了模型的可解釋性。

疾病預測技術的發展趨勢

疾病預測技術的研究可以關注下面兩個重點：

基於多模態數據的預測：醫療數據是多模態的，包含結構化數據、文本、影像和流數據（心率、血氧、呼吸等）。目前的預測方法主要處理結構化的數據，如果需要文本、影像或者流數據中的特徵，就先用某些方法把需要的特徵從這些非結構化數據中抽取出來。如何藉助多個端到端的網路處理多模態的數據並進行融合、預測是很重要的技術挑戰。

醫學領域知識和機器學習方法的融合預測：在目前的疾病預測方法中，醫學領域知識和機器學習方法是割裂的。經典的統計方法完全基於醫學領域知識手工的挑選待選特徵，然後利用統計的方法計算每個特徵的重要性，構建預測模型。機器學習的方法則完全從數據出發，並不參考在某個預測領域中過去幾十年積累的已知的風險因素和權重，也不重視模型的可解釋性，用特徵表示和提取的方法從海量數據中自動的提取特徵，構建模型。如何有效的融合醫學領域知識和機器學習方法，構建可解釋性強的預測模型是未來技術創新的重要方向。

最後，感謝萬禕，賈文笑和李非同學對本文的貢獻，更要感謝每一位有耐心看完這篇長文的讀者。

參考文獻

1.[Wang et al. 2003]Wang TJ, Massaro JM, Levy D, et al. A risk score for predicting stroke or death in individuals with new-onset atrial fibrillation in the community: the Framingham Heart Study. JAMA. 2003; 290 (8): 1049-1056.

2.[Fonarow et al. 2005]Fonarow GC, Adams KF Jr, Abraham WT, Yancy CW, Boscardin WJ. Risk stratification for in-hospital mortality in acutely decompensated heart failure: classification and regression tree analysis. JAMA. 2005 Feb 2;293(5):572-80.

3.[Khosla et al. 2010]Khosla A, Cao Y, Lin CC, Chiu HK, Hu J, Lee H. An integrated machine learning approach to stroke prediction. In: Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, 2010 Jul 25 (pp. 183-192).

4.[Neuvirth et al. 2011] Neuvirth H, Ozery-Flato M, Hu J, Laserson J, Kohn MS, Ebadollahi S, Rosen-Zvi M. Toward personalized care management of patients at risk: the diabetes case study. In: Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, 2011 Aug 21 (pp. 395-403).

5.[Cheng et al. 2016]Cheng Y, Wang F, Zhang P, Hu JY. Risk prediction with electronic health records: a deep learning approach. SIAM Conference on Data Mining (SDM 2016)

6.[Choi et al. 2016]Choi E, Schuetz A, Stewart WF, Sun JM. Using recurrent neural network models for early detection of heart failure onset. J Am Med Inform Assoc 2016;0:1–9.

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※曠視科技 Face＋全資收購艾瑞思機器人正式進軍機器人業務
※AI 晶元讓你升級智能手機，IoT計算智能革命爆發

TAG:新智元 |