鄧侃解讀:醫療關鍵數據時間序列敏感度分析的通用方法
新智元專欄
作者:鄧侃
【新智元導讀】密歇根州立大學、康奈爾大學騰訊研究院的幾位學者,聯名發表了一篇題為 「Identify Susceptible Locations in Medical Records」的論文。這篇文章講述了如何在病歷中找到敏感數據位置,以及如何利用這些關鍵數據對重症監護中的病人進行保護。新智元專欄作者鄧侃博士帶來詳細解讀。
2018年2月13日,來自密歇根州立大學、康奈爾大學騰訊研究院的幾位學者,聯名在 Arxiv 上發表了一篇題為 「Identify Susceptible Locations in Medical Records」 [1]的論文。 這篇文章講述了如何在病歷中找到敏感數據位置,以及如何利用這些關鍵數據對重症監護中的病人進行保護。
平時大家對自己的醫療數據或許並不怎麼關心,面對一大串的字元數字,身為外行基本也看不出個所以然來,更不要說如何用這些數據來救人和自救了。
但這些數據對於醫生們而言就十分寶貴了。根據病患的診療數據醫生們可以對病患的病情走向做出判斷,進而給出相應的治療手段。只不過這些平鋪直敘的數據,即使是醫生看起來也難免會有一些遺漏,又或者被一些可疑信息干擾。
文章中提到的方法就是要從這些流水賬似的數據中找到可疑的「red flag」甚至是潛在的測量誤差,去提示醫生關注可能遺漏或錯誤判斷的關鍵信息。
找到這些敏感信息意味著什麼?
打個比方,對於病人來說,看醫生最在乎的除了身體是否康復外,大概就是花了多少錢了。為了少花錢或是從中賺錢,一些不法分子甚至會進行醫保詐騙。
醫保詐騙通常把無病說成有病,把小病說成大病。
要做到這一結果其實並不容易。詐騙犯們如果只是篡改診斷結果中的疾病,那必須是行不通的。因為報銷審核的時候,一定會核查現病史、化驗結果、檢查報告等以核對病情描述與診斷結果是否一致。
不妨把住院病歷的內容,看成一個時間序列。從入院到出院這一期間每一天的病情描述都是一個矢量,包含各種癥狀、體征、化驗指標、檢查標誌物,以及診斷、藥品、手術、護理等等。
這些數據信息都是連貫的,僅修改結果就像一個錯誤的數學公式,很容易被發現。
而醫保欺詐的目標,是既要儘可能少地改動病歷,還得使之支持編纂出來的出院診斷。也就是說,最理想的情況是只改動病歷時間序列中某一天某一項病情描述指標,就能使之得到期盼的診斷結果。
反過來說,實際測量時可能存在的小偏差,或者數據中不起眼的一個數值變化就像是這個詐騙犯,小小的變動可能就導致了整個實際預測結果的改變。
要如何才能發現哪個病情指標對診斷結果最重要呢?文章基於這一疑問,便提出了一個「通用的方法」去對時間序列數據中各個時刻各個數值的敏感度做出分析。
如何實現搜尋
1. 首先,我們需要一個診斷模型,輸入是病情描述的時間序列,輸出結果是罹患各種疾病的概率。
診斷模型的實現方案有很多。最簡單的是用 LSTM 模型。
當然也可以用它辦法,譬如可以先用 LSTM,把不定長的病情描述的時間序列,轉換成定長的張量,然後用 CNN 對定長的張量做分類。
甚至也可以擯棄 LSTM,譬如 Attention,直接在時間序列中捕捉重要的數據,然後根據這些重要數據做分類。
2. 搞定診斷模型以後,接下去對時間序列中每一天的每一項數據,做敏感性分析。
做敏感性分析的辦法也很多,最粗暴的辦法是窮舉。保持時間序列中的其它數據項不變,只改變一項數據,然後把篡改過了的時間序列,輸入進診斷模型。然後比較診斷模型的診斷結果,與病歷中記錄的真實的診斷結果。模型的結果,與真實結果,兩者相差越大,說明這一項數據,對診斷結果影響越大。
窮舉的辦法效率較差,論文提議,用前沿的對抗攻擊(Adversarial attack)技術,來快速找到敏感的數據項。
對抗攻擊技術的原理,不難懂。由於診斷模型是神經網路,神經網路的各個參數,是通過梯度下降演算法確定的。下降梯度越陡,相關的參數對模型的輸出影響越大。
3. 為了讓敏感性分析的結果,看起來更直觀,做一個熱力圖。
橫軸是各項病情指標,縱軸是時間軸,從入院到出院。二維空間中的每一個點,對應著某一天某一項指標,對診斷結果的影響力,用顏色表示影響力。
方法的拓展應用
仔細想想時間序列敏感度分析的三步曲,會發現其實這個方法並不局限於對病歷記錄的敏感性分析,而就像之前說的,是一個實現對事件序列攻擊的通用辦法。
站在醫保審核的立場,只有懂得了不法分子篡改病例的原理,才能更有針對性地研究如何甄別病歷記錄中,哪些時間的哪些數據,被人為篡改了。從而更為有效的保障病人以及醫療工作者的權益。
參考文獻
1. Identify Susceptible Locations in Medical Records via Adversarial Attacks on Deep Predictive Models.https://arxiv.org/pdf/1802.04822.pdf


※馬斯克怒懟哈佛大學教授:你對通用人工智慧一無所知
※阿里提出新圖像描述框架,解決梯度消失難題
TAG:新智元 |