依圖醫療CEO：解讀首登Nature Medicine的中文NLP輔診研究成果

新聞 02-13

雷鋒網按：以醫學影像分析起家的依圖醫療，其實也早已在醫學NLP領域默默耕耘兩年多。近日，其聯合廣婦兒研發的中文AI輔診系統一炮打響。因相關論文是「全球首次」中文電子病歷NLP技術刊發在頂級醫學雜誌上，該診斷系統備受業界關注。雷鋒網第一時間採訪到依圖醫療CEO倪浩，深挖系統背後的技術細節及依圖醫療在NLP領域的布局與思考。

2月12日，國際知名醫學科研期刊Nature Medicine（《自然醫學》）在線刊登了一篇題為《使用人工智慧評估和準確診斷兒科疾病》（Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence）的論文，這是頂級醫學雜誌全球首次發表通過自然語言處理中文文本型電子病歷進行臨床診斷相關技術的論文。

打開今日頭條，查看更多圖片

論文闡述通過深度學習與知識圖譜相結合，解構臨床電子病曆數據，形成一套智能病種庫，並在其基礎上構建輔助診斷模型的技術。也就是說，有了這項技術，計算機能夠「讀懂」病歷，並進行初步診斷。

其中，「智能病種庫」是此次研究的核心成果，基於該病種庫進行系統開發擁有很大的想像空間。除上述輔助診斷模型外，智能導診、輔助問診等系統也可基於該病種庫搭建，能夠有效緩解醫療資源不足、分配不均的問題，推動醫療供給側改革進程。

據悉，此項技術及論文由廣州市婦女兒童醫療中心（以下簡稱「廣婦兒」）夏慧敏教授、加州大學聖地亞哥分校張康教授、廣婦兒數據中心梁會營博士、醫務部孫新主任以及兒內科門診何麗雅主任團隊與依圖醫療、康睿智能科技等業內頂級研究團隊及廣東省再生醫學重點實驗室聯合研發並撰寫。

6000餘個Schema，55種疾病

依圖醫療CEO倪浩介紹，本次論文所述的是依圖醫療在NLP領域兩年積累的成果，期間依圖醫療進行了大量的基礎性研究，如知識圖譜的構建、結構數據的清洗標註、標註體系的設計、演算法的選擇等。

整個系統的運作分為兩部分。首先，基於醫療知識圖譜，利用深度學習技術按照一定規則解構臨床電子病曆數據，將非結構化文本數據變為結構化數據，建成一套智能病種庫。進而，基於這套智能病種庫搭建各種診斷模型，本次發布的論文中，團隊搭建了一套輔助診斷系統，系統通過讀取病人病歷向醫生提供診療建議。

具體說來，在病種庫構建階段，團隊先根據醫學指南、專家共識庫等現有材料構建醫學知識圖譜，並在該知識圖譜的基礎上，採用深度學習技術按照「標準解構Schema」解構訓練所用的電子病曆數據。這些Schema由依圖醫療及廣婦兒各位專家主任共同制定，用以描述某一病種的所有有意義的特徵。

同一病種的不同維度（如診斷、家族史、主訴、實驗室檢查、影像學檢查、超聲檢查等）被分別構建獨立的Schema。依圖醫療表示，已聯合30餘位高級兒科醫師及10餘位信息學研究人員構建了6000餘個Schema，搭建起基礎模型，並通過大量數據訓練，形成前文所述的「智能病種庫」。該病種庫現已覆蓋55種疾病，且在持續檢驗迭代中。

倪浩為整個過程進行了更加形象的解釋。系統的目的是基於Schema從原始電子病曆數據中提取信息點，並將其結構化、標準化，因此採用LSTM的注意力機制搭建模型，通過不斷對文本進行「提問」抽取信息。例如在對文本「左肺上葉可見腫塊」進行解構的過程中，系統通過不斷的「提問」——「是不是左肺上葉？」「左肺上葉有沒有腫塊？」……抽取信息。實際上，提問的過程就是掃描文本的過程。

病種庫構建好後，團隊利用分層的邏輯回歸的分類器建立診斷模型。倪浩介紹道，該模型與其他系統的不同之處在於其採用層次化結構進行判斷。

第一級分類使用基於器官的方法，診斷首先被規範成廣泛的器官系統（如呼吸系統、神經系統、消化系統等）；第二層進一步細化，分成器官子系統和更具體的診斷組（如上呼吸道和下呼吸道）；同時，採用病理生理學或病因學方法（如感染性、炎性、創傷性、腫瘤性等）將診斷分層決策樹的設計調整至臨床最適用的情景。

依圖醫療CEO：解讀首登Nature Medicine的中文NLP輔診研究成果

診斷模型的層次化結構

130萬份訓練所用病例，88.5%診斷準確率

此次模型的訓練數據集中在兒科。倪浩表示，選擇兒科切入是本著一個非常樸素的想法——解決兒科醫生短缺的問題。另外，由於兒童沒有準確表達病症的能力，因此被稱為「啞科」，這為模型的設計帶來了更大的挑戰。倪浩認為，使用兒科數據訓練的系統若想遷移到成人科室，技術相通，難度不大。

據廣婦兒數據中心梁會營博士介紹，自2016年1月份到2017年6月份，團隊共收集近60萬名患者的130萬份門診記錄電子病歷，平均年齡2.5歲，其中40%是女孩，60%是男孩，涵蓋包括消化科、呼吸科等在內的55種疾病，覆蓋小兒常見病的80%以上，並且覆蓋幾種危急疾病，如腦膜炎等。

倪浩介紹道，130萬份訓練數據可以說是非常大的體量。對於一般在頂級雜誌刊發的論文來說，上萬份訓練數據已經非常少見，大多是百級別、千級別的數據。倪浩表示，此次團隊獲得大量數據得益於廣婦兒的數據化建設及門診接待能力。

據雷鋒網了解，廣婦兒的門診量在中國所有醫院中可以排在前十名，僅2017年一年門診量便達470萬，且產生的數據集中在婦女兒童領域。此外，廣婦兒的信息化建設能夠追溯到2015年，已完成門診病歷的互聯互通。

在模型驗證階段，團隊隨機抽取1.2萬份電子病歷，並選取20位醫生，按年資高低分為五組進行人機對比。結果表明，模型準確率為0.885，高於兩個初級醫生組（分別為0.841和0.839），與第三組醫生數據接近但沒有趕超。

目前整個系統搭載在醫院門診系統中，醫生輸入病歷後可以一鍵獲得輔助診斷結果。系統自2018年5月上線至今，已累計服務33位醫生，其中包括6位正高、13位副高，以及14位主治；系統累計訪問量6.4萬，其中僅2019年1月前20天便有3萬次訪問。梁會營計算，若月調用量達一萬次，則相當於5位住院醫師的門診接待量。

向多模態的醫療數據處理邁進一步

倪浩談到，NLP技術的加入將為醫療領域帶來非常大的價值，因為醫療數據本身呈現多模態特徵。當一位患者進入醫院就診，會產生影像檢查數據、電子病曆數據、化驗結構化數據等，那麼若人工智慧要為未來醫生提供全面的診斷輔助和治療輔助，其對各種模態數據的理解能力都非常重要。

「這次實驗最大的意義在哪裡？本質上在於我們給出了一套適用於臨床環境的利用原始電子病歷進行輔助診斷的一整套理論體系和實踐方法。」倪浩表示，「當然，這個方法不能說是完備的，但是目前世界上可見的理論體系中相對完整且被證明有效的。」

談及未來，倪浩表示不急於計劃廣泛落地，希望藉助廣婦兒的場景提高系統性能，覆蓋更多疾病。目前，廣婦兒的互聯網醫院已經上線，支持在線導診、挂號、機器人問診等一整套線上醫療服務。在互聯網醫院項目上，依圖醫療作為技術提供方也與廣婦兒有著密切的合作，藉助該項目，依圖醫療的技術有了更大的施展空間及更加多元化的數據樣本來源。

倪浩表示，未來該系統將有望與語音識別技術結合，醫生詢問及患者主訴的過程被實時轉化為文字，對話結束後即刻生成電子病歷，結合輔助診斷系統，醫生可一鍵生成患者可能患有的疾病及下一步檢查建議。更進一步地減少醫生負擔，提高診療效率。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※視見醫療科技研發總監王少彬：宮頸癌放療精準臨床靶區勾畫
※「5G殺手級應用」Cloud VR 華為如何打響5G應用第一槍

TAG:雷鋒網 |