當前位置:
首頁 > 最新 > 從大數據、醫學本體到知識圖譜,搭建人工智慧應用需要哪幾步?

從大數據、醫學本體到知識圖譜,搭建人工智慧應用需要哪幾步?

導讀

中國醫療信息化的發展前後經歷了20年多年,如今大數據和人工智慧突然爆發,究竟帶給了醫療信息化怎樣的變化?又,在醫療IT向醫療DT轉變過程中,我們的醫療從業者又都遇到了哪些的困境?本文將為你解惑。

7月29日下午的「千人計劃」創新沙龍,我們有幸請到了醫惠科技有限公司的何國平總經理,他有著近20年的醫療信息化從業經驗,系統地為我們介紹了醫療大數據及人工智慧的搭建邏輯,以下是他的精彩分享:

今天要跟大家分享的內容,主要是從醫療信息的角度,看醫療大數據的體系如何架構,以及基於醫療大數據和人工智慧在臨床、科研、管理方面的應用示例,來回答大數據和人工智慧在醫療信息化建設過程中能夠給我們帶來哪些變化和啟發?

醫療大數據的發展思路

醫療信息化最早從HIS(醫院信息系統)開始,慢慢發展出電子病歷、影像、檢驗等一大堆專業臨床業務系統,這些業務系統產生數據的集合構成了醫院臨床數據中心。另一個維度隨著生物信息技術的發展也會產生大量的數據,比如基因組學、蛋白組學及代謝組學產生的生物信息數據,這些數據的集合產生了醫院另一個數據中心——組學數據中心。

我們把臨床數據和組學數據進行關聯聚合,產生了一些「化學反應」,可以給臨床醫生、科研工作者、管理工作者帶來幫助,提供一些決策輔助,這是醫療大數據一個大的發展思路。但是要拿這些數據去做研究,其實面臨著非常多的困難?我們醫療行業稱之為四座大山:

首先醫療信息化的發展橫跨了20多年的歷史,期間出現過多條發展路線,使得採集到的數據不連續或維度單一,數據的價值大打折扣;第二是因為數據分散在很多業務系統,數據掌握在這些業務廠商手中,不同業務廠商的數據標準結構不同,造成數據的清洗和整理非常困難;第三是不同醫院、不同醫生對病情的描述方式存在差異,計算機無法理解這些表達,需要對採集到的數據進行標準化處理,標準化的過程非常困難;第四是如何對數據進行充分挖掘、轉化為知識,尤其在數據體量非常龐大的情況下,也存在很大的困難。

面對這四座大山,我們需要從一個體系的角度去解決這些問題,以下分享我們近些年來做的一些探索。

通道和蓄水池:數據的採集

醫療大數據首先要確保數據採集過程中的完整性,任何維度的數據缺失都將導致AI學習結果的不準確,我們採取的方法是建立標準化的數據通道和蓄水池。

第一個通道和蓄水池主要面向醫院內部的業務系統進行構建,前面也提到了,現在醫院已經形成了一大堆的業務系統,包括財務收費相關的系統,醫生工作相關的系統,護士工作相關的系統,患者相關的系統,所以我們通過平台集成的方式,把各個業務系統的數據都匯聚起來,建立第一個通道和蓄水池。

第二個通道和蓄水池面向的是患者治療過程的前端(健康管理)和後端(院後隨訪)。現在強調全過程管理和服務,比如病人從院前健康管理、預約挂號到出院回家,站在醫院的角度,病人不來複診,默認治癒了。但可能有些病人覺得醫院水平太差,又跑到上海、北京等大醫院看病去了,這時候醫院採集到的數據,可能就有問題了,醫生的治療方案並沒有治癒病人,我們沒辦法知道這些轉院治療情況,這樣醫院產生的數據就存在不完整和理解的偏差。

所以現在越來越多的醫院開始關注隨訪,病人出院以後不是醫療服務的結束,還要關注他到底是治癒了還是沒治癒,還是轉到其他醫院去用了其他方法治病。但是隨訪會面臨患者不在醫院的情況,從患者家中採集數據實施難度大,這時候會用到醫療物聯網和雲的一些技術,來通過院後隨訪建立第二個數據通道和蓄水池。

第三個通道和蓄水池面向的是醫聯體。同一種疾病,因為個體和治療方案的差異,可能會出現不同的效果,所以醫院非常關注多中心的研究,通過個體和治療方案的交叉匹配,這樣產生的數據結構更有代表性和說服力。從三甲醫院到各級醫療機構都在建立醫聯體關係,從而完成了第三個通道和蓄水池的建立。

我們通過智慧醫療和區域醫療的架構,把三種通道和蓄水池進行整合,把分散在各個業務系統,各個治療階段,各個醫療機構的數據彙集起來,形成連續、完整的數據中心,完成大數據的重要步驟:數據採集。

數據的實體化處理

有了這些大數據以後,下一步工作,就是要把這些數據進行標準和實體化處理,轉換成能被我們計算機識別的語言。

人工智慧的應用模式是模仿人大腦的思維方式,模仿醫生的經驗,然後把醫生的經驗以數據的方式展現出來?醫生的思維模式及經驗展示不僅僅體現在他開具檢查的結果,醫囑信息,經驗的核心體現在他的病程錄中,就像我們IT人員每天寫日誌一樣,我為什麼要這樣開發?我碰到什麼困難?我用什麼方法把它解決了?醫生也一樣,從入院開始,到病人出院,整個過程都會有記錄,同時會把他碰到問題、他的經驗也記錄在裡面,這樣形成的文檔就是病程錄。

如何讓病程錄上的文本數據能夠被計算機識別,我們需要做一些標註,把計算機邏輯判別所需要的數據結構化出來,讓計算機逐步能夠理解。這是第一類數據的實體化。

第二類數據的實體化,我們經常講醫生的知識來源,其實有幾個方面,比如教科書,醫學指南,專家共識等。這些我們也要標準化、結構化後放到資料庫里去,才能形成完整的數據積累。

在數據實體化過程中,我們也會遇到很多困難。因為所有的期刊論文,所有的病程記錄,不同的醫院,不同的醫生,他們的表達習慣不同,比如發熱、發燒、高燒、低燒、39度,醫生想要表達的就是發熱,但是計算機理解不了。所以如何做到數據的標準化,成為數據實體化的關鍵。

在標準化的過程中,我們會去借鑒國際上的一些經驗,國際上會對一個癥狀、對一種疾病、對一個藥品都有標準的描述,這個描述業內叫做「術語」。歐美國家用的比較多的體系叫SNOMED CT,它從解剖學、診斷、疾病、治療等角度,把醫學裡面能碰到的所有癥狀、用藥、臨床表現或流行病的研究,全部都有標準化的「術語」。

做完數據的標準化以後,才到我們數據的實體化階段,實體化又是什麼?我舉個簡單例子,如何判斷小兒麻痹症?它有很多臨床表現,有很多檢驗指標,來判斷這是一個小兒麻痹症。在判斷出小兒麻痹症以後,國家有醫學指南,他要吃什麼葯,要做什麼檢查,做什麼康復等等,會有一系列的指南。把這些描述標準化,同時建立語義關係,就是所謂的數據實體化。

知識圖譜:大數據到人工智慧的橋樑

有了實體以後其實還不夠,因為很多時候我們要進行判斷和推理,這時候需要用到知識圖譜。知識圖譜就是在實體之間建立語義關係,使醫療大數據能夠應用於推理。

知識圖譜包含幾個方面,一個就是知識的獲取,要通過大量的病例,病例通過實體化的數據轉換,然後抽取它們之間的關係建立本體,建立本體以後就完成了知識的抽取工作。

有了知識抽取以後,第二我們要把它產生的本體融合存儲在資料庫中,以便我們在下一次臨床過程中能實時調取到這些知識。第三就是知識的應用,也就是人工智慧的應用。

現在有很多中類型的知識圖譜,主要是三大類,第一類是醫學的知識圖譜,完全是按照臨床醫學的角度去構建的知識圖譜,投入非常大,但是歧義也非常多;第二類是偏知識庫,可以進行查詢,輸入一個詞,查出一個結果;第三類是通過知識挖掘建立新的知識模型,比如百度、阿里,包括我們醫惠等等很多企業在做這樣的一些產品。

說到知識圖譜的應用,也就是人工智慧的應用,包含了像語義搜索、知識問答、臨床輔助等等。它也是從大量的醫學自由文本,從大量的醫院歷史數據,包括一些藥品庫,建立起實體之間的語義關係,最後形成知識圖譜。

在整個知識圖譜的開發過程中,非常重要一點就是知識的抽取。我們現在做的比較多的是從醫學論文里知識抽取,但是如果完全用詞典+全文檢索的方法去做,會出現一些誤差,所以我們建議採用醫學本體+檢索的方式開展。

什麼是醫學本體的方式?我舉一個簡單的例子,在醫學診斷中有肺癌伴肝轉移,如果是用詞典+全文檢進行分詞的方法,會出現類似肺部:肝癌這樣的邏輯錯誤結果;如果用醫學本體進行處理和邏輯糾錯,因為本體有對部位的描述,對疾病類型的描述,它們之間是有約束關係存在的,結果不容易出錯。(本體可以理解為是對實體之間建立語義關係)

抽取完病歷知識以後,還有一塊非常重要的就是醫學指南的知識抽取。

疾病治療過程如果嚴格按照指南來做,哪怕出現了一些醫療差錯,從法律的角度,承擔的責任也是比較有限;如果沒有按照指南來做,而產生了醫療差錯,那責任就會比較大,所以對醫學指南的知識抽取對人工智慧應用比較重要。

在互聯網上存在很多半結構化的醫學指南,比如丁香園、名醫百科、中華醫學會,他們經常會公布一些指南。現在比較流行的做法是用遠程監督加CMN的方法進行知識抽取,抽取完以後通過本體關係來做校驗,再加上臨床醫生最後做審核,這樣形成的知識圖譜其實是大家比較認可的。

知識圖譜開發完以後,下一步我們要把它們之間的體系架構建立好。體系架構分為幾個層面,UMS的語義網路比較偏向生物醫學,比如治療和預防的步驟,針對某種癥狀具備哪些功能,也有一些併發症的處理。而前面提到的SNOMED CT則是偏向病理,涉及到所有的臨床描述,包括我們具體的操作描述。通過這兩者之間(UMS和SNOMED CT)做應用場景融合,這樣就可以把生物醫學和病理整個融合起來。

另一個角度是從數據層進行融合,因為我們最終轉換出的是一堆病歷的數據,這些數據我們如何去提取它之間的語義關係,也是非常重要,這裡我們會用到很多演算法,最後做數據層的融合。

有了體系架構,有了數據,就相當於我們有了一個演算法,有了輸入和輸出,一個數據進去以後,產生的結果能夠和資料庫裡面的數據做校驗,這樣就做到了知識融合。

醫療大數據及人工智慧的應用

有了知識融合以後,我們就可以在醫療行業去推進這些應用。這些應用比較多的一類是知識問答,很多人工智慧應用都是做的知識問答,比如給醫生的一些提醒,也是知識問答的模式。

有了知識融合產生知識圖譜以後,我們就可以在醫療行業去推進人工智慧的應用。這些應用比較多的一類是知識問答,很多人工智慧應用都是基於知識問答,比如在特定場景下觸發給醫生的一些提醒,也是知識問答應用的範疇。

知識問答首先包括了自然語言處理,比如我問機器人,我今天胸痛?機器人就會去匹配胸痛可能會有哪些描述,根據本體描述之間語義的串聯,它會問你是上腹部還是下腹部,疼痛的等級是什麼?是劇痛,還是刺痛,還是酸痛?它會構建很多模型來匹配,匹配完以後它會去檢索資料庫來形成答案,最後給到下一步的決策支持。

在數據輸入和構造的過程中,它還會有評分,來不斷的校驗,通過你的選擇,它會不斷地學習,達到自學習的效果。

第二類相對複雜一點,我們叫CDSS,就是臨床輔助的知識庫。比如在給患者用藥的時候,通過知識庫發現該藥品存在肝腎損傷風險。這個時候CDSS會自動去關聯病人的檢驗報告,若檢驗報告裡面肝腎功能存在異常,它就會提醒醫生開這個葯可能會對病人造成新的傷害,所以這種輔助也是通過知識圖譜的方式來實現。

當然這種CDSS現在不僅僅用在臨床上,在管理上也有。比如醫保控費,從疾病診斷開始,它會自動幫你分析,根據醫保付費的規則,藥費是多少,檢查費是多少,手術費是多少,然後根據病人的治療周期,把費用按照規則分配到每一天,如果某一天的累計值超過某個預警閾值,CDSS就會提醒醫生關注。

第三類應用是科研數據挖掘,很多時候我們要找到真實世界數據之間的客觀規律,第一步就是要找到匹配研究需求的數據,然後通過應用關聯演算法和知識圖譜找到樣本數據之間的客觀關係,最終認知出新的知識和發現。

在整個從數據標準化到知識圖譜應用的過程中,都需要藉助人工智慧的一些演算法集合。現在行業里有非常多的一些人工智慧演算法的開源框架,像Google有TensorFlow。醫惠也在用TensorFlow的框架來整合醫學語義本體和醫學知識圖譜來構建醫惠自己的醫學人工智慧引擎,基於醫學人工智慧引擎就可以實現一系列臨床、科研、管理的人工智慧應用。

本期沙龍分享嘉賓:何國平,他是醫惠科技有限公司總經理,具有非常豐富的醫療行業軟體架構設計和開發經驗。醫惠科技有限公司(股票代碼300078)是國家火炬計劃重點高新技術企業、醫療信息化頂層設計和整體解決方案供應商、浙江省智慧醫療重點企業研究院。

海邦灃華


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 海邦灃華 的精彩文章:

華大事件,一場多方利益的糾纏

TAG:海邦灃華 |