71位中外科學家聯手打造史上最強「AI兒科醫生」

知識 02-20

我國研究人員再創佳績！

Nature子刊Medicine發布了一篇重磅文章——《使用人工智慧評估和準確診斷兒科疾病》，在業界引發了不小的反響。

這是中國研究團隊首次在頂級醫學雜誌發表有關自然語言處理(NLP)技術基於文本型電子病歷(EMR)做臨床智能診斷的研究成果！團隊成員來自廣州市婦女兒童醫療中心、加州大學聖地亞哥分校基因醫學研究所、醫學工程研究所希利眼科研究所、依圖科技等多家機構。

這項人工智慧程序，可以像醫生一樣準確地檢測出測試結果、健康記錄甚至手寫筆記，診斷兒童疾病。

從流感、哮喘到威脅生命的肺炎和腦膜炎，該系統的準確率始終與初級保健兒科醫生相當，甚至有所超越：

AI程序診斷出呼吸道感染和鼻竇炎準確率為95％；

不常見的疾病的確診率也很高：急性哮喘(97％)、細菌性腦膜炎和水痘(93％)以及單核細胞增多症(90％)。

Nature雜誌在一份新聞稿件中表示：

這項技術可能來的正是時候。近年來，由於疾病的範圍、診斷測試和治療方案都呈指數級增長，這就使得醫生的決策過程變得更加複雜。

但是伯明翰大學工程學Duc Pham教授表示：

從結果來看，該系統的表現確實優於初級醫生，但它絕對不能完全取代臨床醫生。無論使用多少訓練樣例，都無法保證100％正確的結果。

本文的作者之一，張康教授也表示：「醫生和AI的關係，可以類比於人類駕駛員和在其監督下的自動駕駛汽車。它只會讓醫生在更短的時間內以更低的成本做更好的事情。」

基於人工智慧(AI)的方法已成改變醫療保健的有力工具

雖然機器學習分類器(MLCs)已經在基於圖像的診斷中顯示出其強大的性能，但對各種大規模電子健康記錄（EHR）數據的分析仍然具有挑戰性。

在本文，作者表明MLC可以以類似於醫生使用的假設 - 演繹推理的方式查詢EHR，並且發現以前的統計方法所沒有找到的關聯特性。作者的模型採用一種自動化的自然語言處理系統，使用深度學習技術從EHR中提取臨床相關信息。

本研究共分析了1362559名兒科患者就診於某大型轉診中心的10160萬個數據點，對該框架進行了訓練和驗證。

兒科診斷框架的工作流程圖

首先提取數據，基於深度學習構建NLP模型，對數據進行語義分析，其次將數據進行結構化，最後對這些完全結構化的資料庫用疾病分類器處理，預測臨床診斷。

大型兒科隊列中診斷框架的層次結構：使用分層邏輯回歸分類器，來建立基於解剖學劃分的診斷系統

基於器官的方法，首先將器官系統按照大類可以劃分為5類，分別是呼吸系統疾病、系統性全身性疾病、神經精神疾病、泌尿生殖系統疾病、胃腸道疾病。然後將每個大類再細分成器官子系統，甚至更具體的診斷組。

下劃線為計算機預測的診斷結果，醫生診斷顯示在頂部的第一行

在診斷層級的第一級，分類器能準確地辨別出，大量兒科患者的器官系統之間，存在哪些廣泛解剖學分類。接下來診斷層級的第二級，我們拿呼吸系統疾病診斷舉例。

在呼吸系統疾病的診斷中，分類器可以辨別上呼吸狀況和下呼吸狀況。

在上呼吸道系統內，可以進一步區分最常見的急性上呼吸道感染：鼻竇炎和喉炎，二者診斷準確度均超過95％。

哮喘被歸類為呼吸系統中的一個獨立類別，診斷系統準確地區分了無併發症的哮喘、咳嗽變異性哮喘和急性哮喘急性發作。

人類醫生確診的315661次主要呼吸道疾病中，AI夠正確預測其中的295403例，精確度達到92%。

使用F1score來評估不同組（行）的診斷性能(Root是診斷分類的第一級)

表中第二列是AI的診斷結果，後面的1組和2組都是初級醫師診斷結果，剩下的3組結果分別由三個高級醫師給出。

可以看出，機器學習模型比初級醫師組表現更好，但比三個經驗豐富的醫師組略差。

AI診斷系統方法介紹

數據收集

我們的數據收集自廣州婦女兒童醫學中心，來自該機構的567498名兒科患者中獲得了1362559次門診的電子病歷。時間範圍從2016年1月至2017年7月。患者年齡中位數為2.35歲，40.11％為女性。我們使用廣東省增城婦女兒童醫院的一組獨立兒科患者的11926例就診記錄，將我們的AI系統和人類醫生的表現進行對比。

NLP模型構建

我們建立了原始信息提取模型，從電子病歷的原始數據中提取出關鍵概念和相關類別，並將其轉換為查詢-答案組合的新格式的臨床數據。這些數據將相關癥狀進行分組，通過表示模型依賴的確切特徵來進行診斷，從而提高了可解釋性。三名醫生策劃並驗證了這些模式，其中包括患者主訴、現有病史，體檢和實驗室報告。

自然語言處理信息提取模型的設計

NLP框架有多個組成部分：詞典構建、符號化、單詞嵌入、圖構建，以及使用LSTM架構的句子分類。

詞典構建

我們通過閱讀訓練數據中的句子，並選擇臨床相關單詞以用於查詢-答案模型構建來生成詞典。詞典的關鍵詞由我們的醫生策劃，並使用中文醫學詞典生成。接下來，根據醫生的臨床知識和經驗，以及專家共識修訂詞典中的錯誤。迭代運行程序，直到找不到現有疾病和體檢的新的概念為止。然後使用這些句子來訓練單詞嵌入模型。

架構設計

架構由醫生策劃的問題列表組成，用於提取癥狀信息以進行診斷。比如問題有「患者是否發燒？」和「患者是否咳嗽？」。答案包括關鍵位置和數字函數。前者對解剖的位置進行編碼，如肺或胃腸道。因此，該值可以是分類變數，也可以是二進位數，具體取決於要素類型。

然後，我們為每種類型的病例數據構建一個模式：由當前疾病的病史和患者主訴，體檢與實驗室檢查構成。然後將此架構用於文本新格式的建模。架構設計的基本原理是增強不同醫院之間的數據的互操作性，以便將來進行進一步研究。此外，與使用有可能被識別出的原始病例相比，以新格式提供病例也有助於保護患者的隱私。

符號化與詞嵌入

由於缺乏公開的標記臨床中文數據資源，我們為分詞建立了標準數據集。我們使用pythonTensorflow包中的word2vec來嵌入具有100個特徵的4,363個令牌，以表示高維空間中單詞的語義和相似性。

LSTM模型訓練集和測試集的構建

我們創建了一個用於訓練問答提取模型的小數據集，並在訓練和驗證隊列中對問答信息進行了手動注釋。對於答案為是/否的問題，我們使用0或1來表示。

對自由文本協調過程使用之前描述的基於注意力的LSTM建模。我們使用Tensorflow實現並訓練模型。我們將NLP模型應用於所有電子病歷中。我們沒有調整超參數，而是使用LSTM模型的默認或常用的超參數設置。

分層多標籤診斷模型

診斷的層級結構由專家醫生研究確定，採用基於解剖學的分類系統進行，因為這是在人類醫師評估患者時制定差異化診斷的常見做法。首先，將診斷範圍分至一般器官系統（比如呼吸系統、神經精神病學或胃腸系統）。在每個器官系統內，再進一步分為子系統（如上呼吸道和下呼吸道），並將「全身」專門標記為一個系統，適用於全身性多器官疾病的情況。

模型訓練和驗證

來自問答模型的數據由混合分類變數和是/否形式的答案組成。因此，我們首先通過訪問矩陣將分類和答案轉換為統一的二進位特徵。然後將數據隨機分成訓練組（包括總訪問數據記錄的70％）和測試組（剩餘的30％）。然後通過構建問答矩陣，在訓練和測試隊列中對每個訪問記錄進行注釋。對於每個中間節點，我們基於直接子項訓練了多類線性邏輯回歸分類器。子項的所有子類都摺疊到子項的級別。使用Sklearn類邏輯回歸來訓練多類別分類器，使用默認的l1正則化懲罰（Lasso），模擬醫生基於有限數量的癥狀進行的診斷。

對疾病的層級聚類

為了評估聚類結果的穩健性，我們首先將數據隨機分成兩半，一半用於訓練，另一半用於測試，並獨立地重新生成訓練和測試數據的兩個聚類圖。我們通過在相應高度獨立地切割相關的樹形圖，將訓練和測試聚類圖中的葉子分配給10個類別。使用調整的Rand指數（ARI）24評估訓練和測試數據之間的類別分配一致性。結果表明我們的聚類圖是穩健的。

無人監督聚類NLP從兒科疾病中提取文本特徵(灰色框內是聚類塊)

在一些病例中，系統使用相關的ICD-10代碼進行聚類診斷，說明具備檢測與人類定義的分類系統一致的臨床特徵的趨勢。但是，另一些時候，系統會將相關類型的診斷分為一類，但不包括該類別中的其他非常類似的診斷。比如將「哮喘」和「咳嗽變異性哮喘」分到同一組中，但該類中不包括「急性哮喘惡化」，該病與「急性鼻竇炎」組合在一起。在許多情況下，即使沒有任何定向標記或分類系統，系統也成功建立了相關診斷的廣泛分組，這表明我們開發的臨床特徵成功學習了建模和診斷的條件之間的關鍵的相似性和差異。

AI系統與人類醫生的表現對比

我們選擇了20名兒科醫生，根據多年的臨床實踐經驗對11926條病歷記錄進行手動標記。這五個小組的醫生涵蓋住院醫師到主任醫師，臨床實踐從3年到25年不等。每組中的醫生從獨立驗證數據集中讀取2981個臨床記錄的隨機子集並分配診斷。每條患者記錄被隨機分配並由四名醫師（每組一名）評分。我們使用F1評分評估了每個醫師組在前15個診斷類別中的診斷表現。

參考鏈接：

來源：Nature Medicine

編輯：三石、大明、鵬飛

本文經授權轉載自

新智元（ID：AI_era）

果殼

ID：Guokr42

整天不知道在科普些啥玩意兒的果殼

我覺得你應該關注一下