當前位置:
首頁 > 新聞 > 吳恩達最新醫學 AI 成果:利用 AI 提高腦動脈瘤檢測準確率,顯著減少臨床醫生診斷時間

吳恩達最新醫學 AI 成果:利用 AI 提高腦動脈瘤檢測準確率,顯著減少臨床醫生診斷時間

吳恩達最新醫學 AI 成果:利用 AI 提高腦動脈瘤檢測準確率,顯著減少臨床醫生診斷時間

打開今日頭條,查看更多圖片

從百度離職後,吳恩達重新回到斯坦福大學繼續進行學術研究,醫療是他最為看重的垂直應用方向之一,兩年的時間裡,吳恩達和團隊陸續發表了多項成果:包括用CNN演算法識別肺炎、公布最大醫學影像數據集 MURA等等。

雷鋒網了解到,近日,斯坦福大學官網發布了吳恩達團隊的一項最新成果:藉助人工智慧演算法,幫助放射科醫師改進腦動脈瘤的診斷。該成果的論文發表在了《JAMA Network Open》。

未破裂動脈瘤的診斷是一項至關重要的臨床任務——腦動脈瘤是大腦血管中的隆起物,可能會滲漏或破裂,可能導致中風、腦損傷或死亡。

計算機斷層掃描血管造影(CTA)是目前用於顱內動脈瘤的診斷、監測和術前規劃的主要的、微創的成像模式。但是,即使是專業的神經放射學家來進行診斷也需要耗費很長的時間。低評分者信度(interrater agreement)對診斷的可靠性也提出了額外的挑戰。

在這幾年的人工智慧浪潮下,卷積神經網路(CNN)已經在一系列視覺任務(包括醫學圖像分析)上表現出優異的性能。然而,利用深度學習來增強臨床醫生工作能力的成果並不是很多。

所以,利用AI幫助臨床醫生可靠地識別CTA中具有臨床意義的動脈瘤,將會為放射科醫師、神經外科醫生和其他臨床醫生提供一個可用和易用的診斷支持工具。

基於這些考慮,吳恩達團隊建立了一種深度學習模型,用於自動檢測CTA上的顱內動脈瘤並分割特定區域,以幫助臨床醫生通過CTA檢查以診斷顱內動脈瘤。

以下為論文詳細內容,由AI掘金志學術組編譯。關注「AI掘金志」公眾號,在對話框回復關鍵詞「吳恩達」,即可獲取原文PDF

摘要

重要性:深度學習有可能增強臨床醫生在醫學成像解釋中的表現,並通過自動分割縮短診斷時間。迄今為止,很少有研究探討過這一主題。

目的:開發和應用神經網路分割模型(HeadXNet模型),該模型能夠在頭部計算機斷層血管造影(CTA)成像中生成顱內動脈瘤的精確體素預測,以增強臨床醫生的顱內動脈瘤診斷能力。

設計、設置和參與者:在這項診斷研究中,我們開發了一個三維卷積神經網路結構,使用611例頭部CTA檢查訓練集以生成動脈瘤分割。在115個檢查的測試集上,該模型的分割結果提交給了臨床醫生。

在2018年8月13日和2018年10月4日之間,無論是否有模型增強,8名臨床醫生在使用隨機順序和14天清洗期的交叉設計中診斷出測試集上存在動脈瘤。在2003年1月3日至2017年5月31日期間的頭頸部檢查,被用於訓練、驗證和測試模型。有至少1例臨床意義重大的動脈瘤,未破裂的顱內動脈瘤檢查為陽性。排除了出血、動脈瘤破裂、創傷後或傳染性假性動脈瘤、動靜脈畸形、手術夾、線圈、導管或其他外科硬體的檢查。所有其他CTA檢查都被認為是對照組。

結果:該數據包含來自662名獨立患者的818項檢查,其中328例CTA檢查(40.1%)至少包含1例顱內動脈瘤,490例檢查(59.9%)無顱內動脈瘤。閱讀測試集的8位臨床醫生的經驗為2至12年。通過人工智慧產生的分割預測來增強臨床醫生的能力,與沒有增強相比,臨床醫生在靈敏度、準確性和評分者信度方面取得了統計學上的顯著改善:

臨床醫生的平均敏感度增加0.059(95%CI,0.028-0.091;adjusted P = .01),平均準確度增加0.038(95%CI,0.014-0.062;adjusted P = .02),平均評估者間差異( Fleiss κ)增加0.060,從0.799增加到0.859(adjusted P = .05)。

特異性(0.016; 95%CI,-0.010-0.041;adjusted P = .16)和診斷時間(5.71秒;95%CI,7.22-18.63秒;adjusted P = .19)的平均值在統計學上沒有顯著變化。

結論和意義:我們建立的深度學習模型成功地檢測出CTA上臨床意義顯著的顱內動脈瘤。這表明人工智慧輔助診斷模型的集成可以通過可靠和準確的預測來增強臨床醫生的表現,從而優化患者護理。

方法

數據

我們回顧性研究了2003年1月3日至2017年5月31日在斯坦福大學醫學中心進行的頭部或頭頸部共9455例連續CTA檢查報告。檢查包括實質性出血、蛛網膜下腔出血、創傷後或傳染性假性動脈瘤、動靜脈畸形、缺血性中風、非特異性或慢性血管發現,如顱內動脈粥樣硬化或其他血管病變,以及手術夾、線圈、導管或其他外科硬體。由具有12年經驗的神經放射學家排除了因創傷或運動退化導致的損傷的例子。檢查報告還包括非破裂性重要動脈瘤(> 3 mm)。

放射科醫生標註

測試集中所有檢查的參考標準由一位經過認證的具有12年經驗的神經放射學家確定。通過審查原始放射學報告確定動脈瘤的存在,對CTA檢查進行雙重審查。另外,如果可行,通過診斷性腦血管造影進一步確認動脈瘤。神經放射學家可以訪問所有的醫學數字成像和DICOM系列,原始報告和臨床病史,以及注釋過程中的前期和後續檢查,以確定標籤的最佳參考標準。

在每個動脈瘤檢查中,放射科醫師還確定了每個動脈瘤的位置。使用開源注釋軟體ITK-SNAP,在每個切片上手動分割所識別的動脈瘤。

模型建立

在這項研究中,我們開發了一種名為HeadXNet的三維CNN,用於從CT掃描中分割顱內動脈瘤。CNN是一種用於處理圖像數據的神經網路,而三維CNN特別適合處理圖像序列或體積。

HeadXNet是具有編碼器 - 解碼器結構的CNN(補充中的e圖1),其中編碼器將卷映射到抽象的低解析度編碼,然後解碼器將該編碼擴展為全解析度分割體積。分割結果為每個體素動脈瘤的概率值,其尺寸與原圖像相同。編碼器改編自50層SE-ResNeXt網路,解碼器是一系列3×3轉置卷積。

與UNet類似,跳過連接在3層編碼器中使用,以將編碼過程中的輸出直接傳輸到解碼器中。編碼器是在Kinetics-600數據集上預先訓練的,這是一系列標有人類行為的YouTube視頻;在預訓練編碼器之後,最後3個卷積塊和600-way softmax 輸出層被移除,相應位置添加了一個巨大的空間金字塔池化層和解碼器。

訓練過程

在訓練期間,我們從體積中隨機取樣16個樣本的子體積。對數據集進行預處理以找到顱骨的輪廓,並且將每個樣本重採樣到208×208像素之前,每個樣本在橫斷面中圍繞顱骨進行裁剪。然後將切片裁剪成192×192像素(在訓練期間使用隨機裁剪,在測試期間使用中心裁剪),最終輸入的尺寸大小為16×192×192;將相同的變換應用於分割標籤。訓練過程使用基於體素的二元交叉熵和Dice損失的加權組合。

在進入模型訓練之前,輸入圖像被截取為[-300,700] Hounsfield單位,數據歸一化為[-1,1]和零中心。 訓練使用3個TitanXp GPU(NVIDIA),每個GPU 上的minibatch為2。 使用隨機梯度下降優化器優化模型的參數,動量為0.9,隨機初始化權重的peak learning rate為0.1,預訓練權重為0.01。學習率通過linear warm-up從0到10000次迭代的peak learning rate進行調整,然後進行超過30萬次的餘弦退火迭代。

另外,對於預訓練編碼器的前10000次迭代,學習速率固定為0。關於正則化,對於所有可訓練參數的loss加上0.001的L2權重衰減,並且在編碼器塊中使用隨機 depth dropout。沒有使用標準dropout。

為了控制類不平衡,我們使用了3種方法。

首先,錯誤分類的正例通過編碼器和focal loss鼓勵更大的參數更新,在這之後添加輔助loss。

其次,異常訓練樣本的採樣頻率高於正常樣本,因此異常樣本占訓練迭代的30%。

最後,在訓練迭代中,當分割標籤完全由背景(正常)體素組成時,解碼器的參數不更新。

為了產生整個體積的分割預測,連續16張切片的子體積的分割輸出被簡單地連接起來。如果切片的數量不能被16整除,則最後一個輸入體積用0填充,相應的輸出體積被截斷回原始大小。

研究設計

我們進行了一項診斷準確性研究,比較了有和沒有模型增強的臨床醫生的表現指標。參與該研究的8名臨床醫生,每一名診斷測試集中的115例,一半有該模型的幫助,另一半沒有。臨床醫生對原始報告、臨床病史和隨訪成像檢查不知情。

使用交叉設計,臨床醫生隨機分為兩組。在每組中,檢查按固定隨機順序對組的一半進行排序,另一半則為相反順序排序。第1組首先閱讀沒有模型增強的檢查,第2組首先閱讀模型增強的檢查。在14天的清洗期後,增強設置進行顛倒,使得組1閱讀具有模型增強的檢查,組2閱讀沒有模型增強的檢查(圖1A)。

臨床醫生標記是否存在至少1個臨床重要的動脈瘤(直徑大於3mm)。臨床醫生在診斷閱覽室單獨閱讀,全部使用相同的高清監視器(3840×2160像素),在標準的開源DICOM查看器(Horos)上顯示CTA檢查。臨床醫生將他們的標籤輸入數據輸入軟體應用程序,該應用程序自動記錄標記先前檢查與當前檢查之間的時間差。

當使用模型增強進行閱讀時,臨床醫生以直接覆蓋在CTA檢查之上的感興趣區域(ROI)分割的形式提供模型的預測。為了確保所有臨床醫生都使用熟悉的圖像顯示界面,模型預測的ROI在標準DICOM查看軟體中顯示。

在模型預測概率大於0.5的每個體素中,醫生在軸向、矢狀和冠狀系列切片上可以看到一個半透明的紅色覆蓋層(圖1C)。在載入檢查時,醫生可以立即訪問ROI,並且可以切換ROI以顯示未改變的CTA圖像(圖1B)。

紅色覆蓋是唯一的提示,即模型是否預測到特定CTA檢查包含動脈瘤。鑒於這些模型結果,醫生可以選擇根據臨床判斷考慮或忽視。

當醫生在沒有模型增強的情況下進行診斷時,任何檢查顯示都沒有ROI。否則診斷工具對於增強和非增強讀取是相同的。

吳恩達最新醫學 AI 成果:利用 AI 提高腦動脈瘤檢測準確率,顯著減少臨床醫生診斷時間

A,交叉研究設計。 臨床醫生被分成2組,以隨機順序進行有和沒有模型增強的讀片,其間有2周的清洗期。

B,無模型增強的讀片,在軸向,冠狀和矢狀視圖中使用原始CTA掃描。

C,模型增強讀片,在CTA軸向,冠狀和矢狀視圖上覆蓋模型分割結果。醫生可以選擇關閉覆蓋並查看掃描,如圖B所示。AI表示人工智慧;CTA,計算機斷層掃描血管造影。

統計分析

在確定檢查是否包含動脈瘤的二元任務中,使用敏感性、特異性和準確性來評估具有和不具有模型增強的臨床醫生的表現。靈敏度表示真陽性結果的數量除以動脈瘤陽性總數,特異性表示真陰性結果的數量除以總動脈瘤陰性病例,準確度表示所有測試病例的真陽性除以真陽性結果的數量。

所有臨床醫生的這些統計數據的微觀平均值也通過與真陽性、假陰性和假陽性結果總數相關的每個統計數據來計算。此外,為了將模型的分割輸出轉換為二元預測,如果模型預測至少1個體素屬於動脈瘤而其他為陰性,則預測認為是陽性的。使用95%Wilson評分置信區間來評估敏感性、特異性和準確性的估計值的變化。

為了評估臨床醫生是否通過模型增強實現了顯著的性能提升,我們對所有8位臨床醫生的敏感性、特異性和準確性的差異進行了單尾t檢驗。為了確定研究結果的魯棒性以及結果是否包括實習放射科醫生和神經外科醫生,我們進行了敏感性分析:我們僅計算了對經過認證的放射科醫師的敏感性、特異性和準確性差異的t檢驗。

對有或無模型增強的臨床醫生進行診斷的平均時間計算為連續診斷的電子表格中的平均進入時間之間的差異; 使用95% t值置信區間來評估估計值的可變性。考慮臨床讀片中斷或時間記錄錯誤,排除每個讀片中每個臨床醫生診斷的5個最長和5個最短時間。為了評估模型增加是否顯著縮短診斷時間,對所有8名臨床醫生進行和不進行模型增強的平均時間差異進行單尾t檢驗。

臨床醫生和放射科醫師子集的評估信度使用精確的Fleiss κ計算。為了評估模型增強是否增加了評估信度,對臨床醫生在測試集上的評估信度進行了單尾置換檢驗。置換過程包括隨機交換有或沒有模型增強的臨床醫生標註,以便先前已經標記為具有增強地讀取的測試集的隨機子集現在被標記為在沒有增強的情況下被讀取,反之亦然;在具有置換標籤的測試集中計算精確的Fleissκ值(和差值)。

這種置換過程重複10000次,以產生Fleissκ差異的零分布(具有增強的臨床醫師標註的評估信度沒有高於無模型增強的情況),未經調整的P值計算的Fleiss κ差異的比例比觀察到的Fleiss k差異更大。

為了控制familywise錯誤率,應用Benjamini-Hochberg校正來考慮多個假設檢驗;Benjamini-Hochberg-adjusted P ≤ .05表示統計顯著性。所有測試都是單尾的。

結果

該數據包含來自662名獨立患者的818項檢查,其中328例CTA檢查(40.1%)至少包含1例顱內動脈瘤,490例檢查(59.9%)無顱內動脈瘤(圖2)。在328例動脈瘤病例中,15位特殊患者的20例包含2個或更多動脈瘤。148例動脈瘤的動脈瘤大小在3m-7mm之間,108例動脈瘤在7毫米至12毫米之間,61例動脈瘤在12毫米至24毫米之間,還有11例動脈瘤大於24mm。

動脈瘤的位置分布如下:99例位於頸內動脈,78例位於大腦中動脈,50例為海綿狀頸內動脈瘤,44例為基底動脈瘤,41例位於前交通動脈,18例位於後交通動脈,16例位於椎基底動脈系統,還有12例位於大腦前動脈。

所有檢查均在GE Discovery、GE LightSpeed、GE Revolution、Siemens Definition、Siemens Sensation或者Siemens Force掃描儀上進行,切片厚度為1.0 mm或1.25 mm,使用頭部血管造影或頭頸血管造影的標準臨床方案。動脈瘤和非動脈瘤檢查之間的方案和切片厚度沒有差異。在該研究中,從檢查中提取軸向序列,並在每個包含動脈瘤的軸向切片上打上分割標籤。每次檢查的圖像數量在113到802之間(均值[方差],373 [157])。

將檢查分為611例檢查訓練集(494名患者;均值[方差]年齡,55.8[18.1]歲;372[60.9%]女性)用於訓練模型,92例檢查的驗證組(86名患者;均值[方差]年齡,61.6 [16.7]歲;59[64.1%]女性)用於模型選擇,115例檢查的測試集(82名患者;均值[方差]年齡,57.8 [18.3]年;74 [64.4%]女性)用於評估臨床醫生以及模型的表現(如圖2)。

我們採用分層隨機抽樣的方法,形成的驗證和測試集各包括50%動脈瘤病例和50%正常病例;剩下的檢查為訓練集,其中36.5%為動脈瘤檢查。43例患者因動脈瘤隨訪檢查而在數據集中出現多例檢查。考慮到這些重複的病人,檢查的分組使得不同的組之間沒有病人重疊。圖2包含每組的病理學和患者人口統計學特徵。

吳恩達最新醫學 AI 成果:利用 AI 提高腦動脈瘤檢測準確率,顯著減少臨床醫生診斷時間

從在2003年至2017年期間在斯坦福大學醫學中心進行的9455次計算機斷層掃描血管造影(CTA)檢查中挑選了818例經過專業的放射學家驗證的病例。這些測試被分為訓練集、開發集和測試集,分別用於訓練模型、選擇最佳模型和評估所選擇的模型。

共有8名臨床醫生參加了研究,其中包括6名註冊執業的放射科醫生、1名執業神經外科醫生和1名放射科實習醫師。放射科醫生的經驗從3年到12年不等,神經外科醫生有2年的主治經驗,實習醫師正在斯坦福大學醫學中心接受第二年的培訓。第1組和第2組各由3名放射科醫師組成;實習醫師和神經外科醫生都在第1組。沒有臨床醫生參與建立檢查的參考標準。

在沒有增強的情況下,臨床醫生取得的微平均靈敏度為0.831(95%CI,0.794-0.862),特異性為0.960(95%CI,0.937-0.974),準確度為0.893(95%CI,0.872-0.912)。在有增強的情況下,臨床醫生的微平均靈敏度達到0.890(95%CI,0.858-0.915),特異性為0.975(95%CI,0.957-0.986),準確度為0.932(95%CI,0.913-0.946)。基礎模型的靈敏度為0.949(95%CI,0.861-0.983),特異性為0.661(95%CI,0.530-0.771),準確度為0.809(95%CI,0.727-0.870)。模型的性能、每個臨床醫生以及他們的微平均性能在eTable 1中給出。

有增強的情況下,臨床醫生整體在平均敏感度和平均準確度有統計學上顯著的增加,分別為(0.059;95%C,0.028-0.091;adjusted P = .01)和(0.038; 95%CI,0.014-0.062;adjusted P = .02)。平均特異性在統計學上沒有顯著變化(0.016;95%CI,-0.010-0.041;adjusted P = .16)。

表中詳細列出了臨床醫生整體的性能改進,圖3中列舉了每個臨床醫生的改進。在附錄eTable 1中顯示了加和不加模型增強的個體性能。敏感性分析證實,即使註冊執業的放射科醫生,也有在統計學上有顯著的平均靈敏度(0.059; 95%CI,0.013-0.105;調整後P = .04)和準確度(0.036; 95%CI,0.001-0.072;調整後P = .05)增長。作為一個整體,註冊執業的放射科醫生的性能改進在補充資料的eTable 2中給出。

吳恩達最新醫學 AI 成果:利用 AI 提高腦動脈瘤檢測準確率,顯著減少臨床醫生診斷時間

臨床醫生沒有增強的每次檢查的微平均診斷時間是57.04秒(95%CI,54.58-59.50秒)。每個臨床醫生的時間詳見附錄eTable 3,每人的診斷時間變化顯示在eFigure 2中給出。隨著增強,平均診斷時間在統計學上沒有顯著的下降(5.71秒;95%CI,-7.22-18.63秒;adjusted P = .19)。模型平均需要7.58秒(95%CI,6.92-8.25秒)來處理檢查並輸出其分割圖。

混淆矩陣,即報告了每個臨床醫生的真陽性和假陽性結果以及真陰性和假陰性結果(有或沒有模型增強)的表格,在附錄eTable 4中給出。

在臨床醫生的評判一致性上,在統計學上顯著增加了0.060(adjusted P = .05),沒有增強的精確Fleiss κ為0.799,增強的為.859。對於註冊執業的放射科醫師,他們的評分員信度增加了0.063,沒有增強的精確Fleiss κ為0.783,增強了的為0.847。

討論

在本研究中,我們採用交叉研究設計,研究了深度學習模型增強臨床醫生使用CTA檢測腦動脈瘤的能力。隨著模型的增強,臨床醫生的敏感性、準確性和評分員信度顯著提高。特異性和診斷時間無統計學差異。

鑒於錯過動脈瘤破裂風險的潛在災難性後果,醫生非常需要一種能夠可靠地檢測和增強臨床醫生表現的自動檢測工具。動脈瘤破裂在40%的患者中是致命的,在存活下來的患者中,有三分之二的人會導致不可逆的神經功能障礙;因此,準確及時的檢測至關重要。

除了在診斷CTA檢查時顯著提高臨床醫生的準確性之外,還可以使用自動化動脈瘤檢測工具(例如本研究中提供的檢測工具)來確定工作流程的優先順序,以便那些更有可能是陽性的檢查能夠得到及時的專家診斷,從而可能縮短治療時間並獲得更有利的結果。

臨床醫生在動脈瘤診斷中的顯著差異已被充分記錄,並通常歸因於缺乏經驗或亞專科神經放射學訓練,複雜的神經血管解剖學或識別動脈瘤的勞動密集型性質。研究表明,基於CTA的動脈瘤檢測的評分員信度的差異很大,其中評估間可靠度指標範圍為0.37至0.856,評估水平因動脈瘤大小和個體放射科醫師經驗而異。

除了顯著提高敏感性和準確性外,使用該模型增強臨床醫生還顯著提高了評分員信度,從0.799提高到0.859。這意味著通過模型增強,具有不同經驗和專業水平的臨床醫生可以產生更準確和更一致的放射學解釋。

目前,用於改善CTA臨床醫生動脈瘤檢測的工具包括骨減法,以及顱內脈管系統的三維渲染,其依賴於應用對比度閾值設置以更好地描繪腦血管系統併產生3D渲染的重建以幫助動脈瘤檢測。但是,使用這些工具對臨床醫生來說是勞動和時間密集的;在某些機構中,此流程被外包給3D實驗室,需要額外費用。

本研究中開發的工具直接集成在標準DICOM查看器中,只需幾秒鐘即可在新檢查中生成分割圖。如果集成到標準工作流程中,可以大大降低診斷的成本和時間,可能導致更有效的治療和更有利的患者結果。

深度學習最近在各種基於臨床圖像的識別任務中取得了成功。研究表明,二維神經網路在CT頭顱檢查中檢測顱內出血和其他急性腦部表現,如腫塊效應或顱骨骨折方面具有很強的性能。

最近,一項研究檢查了深度學習在診斷基於磁共振血管造影檢查腦動脈瘤的潛在作用。

另一項研究表明,在解釋膝關節磁共振研究時,為臨床醫生提供深度學習模型預測,增加了檢測前交叉韌帶撕裂的特異性。

據我們所知,在本研究之前,深度學習尚未應用於CTA,這種檢測腦動脈瘤的一線成像模式。我們的研究結果表明,深度學習分割模型可以產生可靠和可解釋的預測,增強臨床醫生並提高他們的診斷性能。在本研究中實施和測試的模型顯著提高了臨床醫生的敏感性、準確性和使用CTA檢測腦動脈瘤方面具有不同的經驗和專業的醫師檢查的可靠性。

局限

當然,這項研究有局限性。首先,因為該研究僅關注非破裂動脈瘤,模型在動脈瘤破裂後動脈瘤檢測、線圈或手術夾閉後病灶複發或與動靜脈畸形相關的動脈瘤方面的表現尚未進行研究。

其次,由於排除了包含手術硬體或設備的影響,因此模型性能在受到這些影響時是未知的。在臨床環境中,CTA通常用於評估多種類型的血管疾病,而不僅僅用於動脈瘤檢測。因此,測試集中動脈瘤的高患病率和臨床醫生的二元任務可能會在測試中引入偏差。

此外,這項研究是針對單一的三級護理學術機構的數據進行的,當應用於其他具有不同掃描儀和成像協議(如不同的切片厚度)的機構的數據時,可能不能表現出很好的性能。

結論

本項研究建立了一種基於CTA的顱內動脈瘤自動檢測深度學習模型。我們發現,模型顯著提高了臨床醫生的敏感性、準確性和評估者間可靠性。未來的工作將進一步調查這個模型的表現,並應用其他機構和醫院的數據。雷鋒網雷鋒網

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

極棒·華為智能設備安全挑戰賽招募選手:200萬獎金,送華為設備
谷歌進一步公布 Stadia 細節,包月只需 10 美元

TAG:雷鋒網 |