AI技術如何通過醫療記錄來進行再就診率預測？| 矽谷洞察

新聞 05-21

更多精彩，敬請關注矽谷洞察官方網站（http://www.svinsight.com）

電子健康記錄里存儲了關於醫院患者的有價值信息，但它們通常是分散的、非結構化的，這使得難以使用AI系統來對其進行省時、省力的解析。幸運的是，紐約大學和普林斯頓大學的研究人員開發了一個框架，用於評估臨床記錄（即癥狀描述、診斷原因和放射學結果），並自動打一個風險評分，來表明患者是否會在未來30天內再次入院就診。他們聲稱，相關的代碼和模型參數已經公開在了Github上，其表現已經輕鬆超過基準線。

打開今日頭條，查看更多圖片

「準確預測再入院率具有很重要的臨床意義，表現在效率提升和減輕ICU醫生負擔兩個方面，」該論文的作者寫道。「一項估計認為，再次入院造成的經濟負擔為179億美元，而其中可避免的入院比例為76％。」

正如研究人員在一篇在Arxiv.org上預發表的論文中所指出的那樣（「ClinicalBERT：臨床醫療記錄建模和再就診預測」），臨床醫療記錄通常使用縮寫和術語，並且一般很冗長，這對AI系統設計提出了不小的挑戰。為了克服它，他們使用了一種自然語言處理方法 - Google的「變換器雙向編碼器表示」，或簡稱BERT - 通過結合全局的、長跨度的信息來捕獲句子中相距較遠單詞之間的相互聯繫。

在預處理步驟中，每條臨床記錄會被表示成從文本中提取的「子單元」或「子詞單元」的集合。從這些單元組成的多個序列中，ClinicalBERT可識別出哪些單元與哪個序列相關聯。它還可以從與序列相對應的變數中學習掌握子單元的位置，並在每個序列的前面插入用於分類任務的特殊單元。

為了訓練ClinicalBERT，該團隊採集了一些臨床記錄語料庫，並隱藏了15％的輸入單元，來迫使模型預測隱藏的單元以及任何兩個給定的兩個句子是否連續。然後，利用了「多重參數的智能監護重症監護（MIMIC-III）」，這是一個電子健康記錄數據集，包括了來自38,597名患者58,976次醫院就診的200多萬條記錄，研究人員使用此數據對該系統進行了微調，以適應臨床預測的任務。

作者報告顯示，通過由30對醫學術語組成的、用於評估醫學術語相似性的測試樣本進行測試，發現，ClinicalBERT達到了很高的相關性評分，表明它的標記成功捕獲了醫學概念術語之間的相似性。他們說，與心臟相關的概念，如心肌梗塞、心房顫動和心肌，靠得很近，腎功能衰竭和腎功能衰竭也很接近。

在一項單獨的實驗中，該團隊聲稱，在MIMIC-III語料中，從涉及34,560名患者的、且有連續48或72小時的醫療記錄的數據來看，與僅關注出院數據摘要的模型相比，ClinicalBERT顯示在未來30天再入院預測上效果有提升，相對增加了15％的召回。此外，他們表示，隨著入院時間的延長和臨床筆記數量的增加，系統開始在語言建模任務中的表現開始優於原始BERT模型。

「ClinicalBERT可以幫助提供護理的人員做出明智的決定，並在必要時提前進行干預，」研究人員寫道。「它的輸出結果…是可以追溯的，可以理解哪些臨床記錄中的信息與當前預測結果相關，（並且它）也很容易推廣到其他任務，如診斷預測、死亡風險評估或住院時間評估等。」

原文鏈接：https://venturebeat.com/2019/04/11/ai-predicts-hospital-readmission-rates-from-clinical-notes/

作者：KYLE WIGGERS

更多精彩，敬請關注矽谷洞察官方網站（http://www.svinsight.com）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 矽谷密探 的精彩文章:

※人工智慧正在向具有「高情商」發展
※科學家探尋用CRISPR技術治療「泡沫男孩」的可能—矽谷洞察

TAG:矽谷密探 |