當前位置:
首頁 > 新聞 > 中國團隊完成醫療 AI 多中心臨床驗證,成果入選《柳葉刀》子刊封面

中國團隊完成醫療 AI 多中心臨床驗證,成果入選《柳葉刀》子刊封面

在一些特定的病種上,AI的表現大有超越醫生之勢。然而,很多醫療AI產品還在研發和試驗訓練階段。在實際的比較試驗中,尚未使用大規模未經過濾的臨床數據評估醫學AI在疾病診斷和治療決策中的有效性。 大家就有疑問,AI在投入真實臨床應用的情況到底會如何?

雷鋒網了解到,近日,中山大學中山眼科中心劉奕志和林浩添眼科人工智慧團隊牽頭完成了最新的臨床多中心隨機對照研究,用來比較CC-Cruiser和傳統眼科診所的醫生之間的臨床差異。這篇論文以封面文章的形式發表在全球權威醫學期刊《柳葉刀》子刊EClinicalMedicine(ECM)最新一期(2019 Mar)上。

CC-Cruiser是由中山大學中山眼科中心(ZOC)醫學人工智慧團隊利用深度學習建立的「先天性白內障人工智慧診斷決策平台」,該協作雲平台支持個體醫院之間的患者數據共享,用於數據集成和患者篩查。CC-Cruiser採用的訓練數據集包括410例兒童白內障眼圖和476例正常眼睛圖像,這些圖像來自中國罕見疾病專科護理中心的中國衛生部兒童白內障項目(CCPMOH)

摘要

背景:CC-Cruiser是一種用於診斷兒童白內障並提供風險分層和治療建議的人工智慧平台。之前在特定數據集上驗證了CC-Cruiser的高精度。本研究的目的是比較CC-Cruiser和眼科醫生在實際臨床環境中的診斷效果和治療決策能力。

方法:這項多中心隨機對照試驗在中國不同地區的五個眼科門診進行。未確診白內障或既往眼科手術史的兒童患者(年齡≤14歲)隨機(1:1)接受CC-Cruiser或眼科醫師(具有5年以上兒科眼科臨床經驗)的診斷和治療建議。提供金標準的專家與進行裂隙燈拍攝和數據分析的研究人員不知道分組情況。

主要結果參照白內障專家標準對兒童白內障的診斷。次要結果包括疾病嚴重程度和治療確定的評估,診斷所需的時間以及患者滿意度,其由平均評分確定。該試驗已註冊ClinicalTrials.gov (NCT03240848)。

調查結果:2017年8月9日至2018年5月25日期間,350名參與者(700隻眼)被CC-Cruiser(350隻眼)或眼科醫生(350隻眼)隨機分配診斷。CC-Cruiser的白內障診斷和治療確定的準確率分別為87.4%和70.8%,分別顯著低於眼科醫師的99.1%和96.7%(p

解釋:與眼科醫師相比,CC-Cruiser在診斷兒童白內障和做出治療決策方面不太準確。但是,CC-Cruiser提供的醫療服務所需時間更少,取得了高水平的病人滿意度。CC-Cruiser有能力在其目前的臨床實踐中協助人類醫生。

方法2.1 研究設計和參與者

這是一個在五個中國眼科診所進行的大型、多中心、平行組、隨機對照試驗。我們的研究遵循了綜合報告試驗標準(CONSORT)指南。該試驗的主要研究中心是中山大學中山眼科中心。另外四家診所分別為深圳市眼科醫院、武漢市中心醫院、福建醫科大學第二附屬醫院、開封眼科醫院。我們選擇了來自不同地區的這些合作醫院,以代表中國各地醫療保健環境的多樣性。

研究人員根據這些醫院眼科診所的納入標準招募參與者。參與者如果年齡小於14歲,有或沒有眼部癥狀,並且先前沒有眼科手術史,則有資格參加該研究。所有參與者都需要進行裂隙燈攝影(slit-lamp photography),必要時使用水合氯醛(chloral hydrate)等鎮靜劑。 已經明確診斷為白內障,其他眼部正常或眼外傷的患者被排除在外。

在開始時獲得每個參與兒童的至少一名監護人的書面知情同意,並且在整個研究期間遵循赫爾辛基宣言(Declaration of Helsinki)中的原則。 該研究方案得到了ZOC倫理委員會和所有合作中心機構審查委員會的批准,包括深圳市眼科醫院,武漢市中心醫院,福建醫科大學第二附屬醫院和開封眼科醫院。 該試驗在Clinical Trials.gov(NCT03240848)註冊。

2.2 隨機化和盲法

參與者被隨機(1:1)接受CC-Cruiser或眼科醫師的診斷,其中一名參與者(兩隻眼睛)被隨機分配到同一組。通過隨機數生成程序進行集中隨機化,沒有分層因素以避免選擇偏倚。每個研究中心的研究人員評估了每位患者的資格。如果患者符合納入標準,則研究者將患者的信息發送給研究協調員,協調員通知研究者有關分配的組。由經過培訓的臨床工作人員在每個參與的診所進行裂隙燈攝影和患者招募。臨床工作人員、參與數據管理和分析的研究人員以及在每個診所提供金標準診斷的專家對組的分配不知情,以預防確認偏倚。研究參與者、眼科醫師、研究協調員和負責隨機化的研究者不隱瞞分配信息。

2.3 規程

ZOC兒童白內障中心的CC-Cruiser平台通過互聯網與所有合作診所相連。已建立CC-Cruiser網站(https://www.cc-cruiser.com/version1),其中包含指南和說明的演示視頻。註冊用戶可以將新病例上傳到CC-Cruiser,輸出結果包括:診斷(正常晶狀體與白內障),綜合評估(不透明區域,密度和位置)以及治療建議(手術與隨訪)。具有至少5年兒科眼科臨床經驗的眼科醫師在每個中心提供初步診斷。投資者為每位符合條件且同意的參與者創建了一份資料,並記錄了他們的人口統計信息和基線臨床特徵,包括性別、出生日期、白內障家族史和眼部癥狀。每個中心的參與調查員和臨床工作人員在試驗前接受了研究程序的標準化培訓。所有符合條件的參與者在分組前進行瞳孔擴張的裂隙燈攝影,其中漫射光為單一標準,裂隙燈照明強度適當和眼睛位置統一。臨床工作人員嘗試每隻眼睛不超過三次。研究人員對43名非常年輕的患者使用鎮靜劑(水合氯醛),否則他們將不配合這項檢查。

AI組的參與者在裂隙燈攝影后被分配到AI診所。研究人員將眼前段的圖像發送給CC-Cruiser並接受初步診斷(正常晶狀體與白內障),並對疾病嚴重程度(晶狀體混濁度和不透明度區域,密度和位置)進行綜合評估,並提供治療建議 (手術與隨訪)。研究人員計算了訪問CC-Cruiser並接受初步診斷所需的時間。眼科醫師組的參與者被分配到常規眼科診所。眼科醫師向患者提供初步診斷報告,包括疾病嚴重程度和治療決策。研究人員還計算了診斷過程所需的時間。

在接受初步診斷後,所有具有識別號碼的參與者都接受了專家小組的金標準診斷,其中包括三名白內障專家,他們具有超過10年的眼科臨床經驗。專家小組進行了裂隙燈檢查,達成了共識,為每位患者做出最終的診斷和治療決策。在初步診斷報告和標準診斷之後,要求參與者及其監護人完成關於他們對診斷準確性和效率的滿意度的問卷調查。

2.4 結果

主要結果是診斷正常晶狀體與白內障的準確性。由於沒有可用於兒科白內障的國際分類系統,因此評估小兒白內障的參考標準是白內障專家的診斷。研究人員使用白內障專家的金標準診斷結果比較了CC-Cruiser的診斷準確性與眼科醫師的診斷準確性。次要結果包括評估疾病嚴重程度,進行診斷所需的時間以及患者滿意度。綜合評估疾病嚴重程度,不透明區域(廣泛與有限),密度(密集與非密集),位置(中央與外周)和治療建議(手術與隨訪)。

當不透明度覆蓋超過50%的瞳孔時,不透明度區域被定義為廣泛;否則,它被定義為有限的。當不透明度完全破壞眼底成像時,不透明度密度是密集的;否則,它被定義為非密集的。當不透明度完全覆蓋視軸區域時,不透明度位置被定義為中心;否則,它被定義為外圍。

由於診斷是基於眼前段的裂隙燈圖像,因此診斷所需的時間是從圖像採集開始到完成CC-Cruiser或眼科醫師的初始診斷報告和治療建議。通過七項問卷對患者滿意度進行評估和分析。得分為1表示不同意;2表示中性;3表示同意和4表示非常同意。記錄每個項目的參與者數量和百分比,並計算每個項目的平均評級。

2.5 統計分析

使用來自CC-Cruiser的對比測試的數據,我們計算出需要至少700隻眼睛的樣本量(假設分配比例為1:1,每組350隻眼睛)來比較CC-Cruiser和眼科醫師之間的診斷準確性。由CC-Cruiser接診的人工智慧門診預期準確率為90%,眼科醫師門診的預期準確率為95%,統計能力為80%,統計顯著性水平為5%。

研究分析遵循全面的、預先規定的統計分析計劃。在基線記錄人口和臨床數據。統計分析基線人口統計學和疾病特徵,以確定所有350名參與者(700隻眼睛)被隨機分成兩個研究組。因為沒有患者在招募後停止或退出治療人數與每個方案人口相同。然後,我們主要分析隨機分配後初始的所有患者。診斷準確性的分析在眼睛水平,並且同一人的雙眼分別在同一組中進行分析。

我們根據金標準(白內障專家)計算了CC-Cruiser和眼科醫師的敏感度,特異性、準確性、陽性預測值(PPV)和陰性預測值(NPV)。通過對疾病嚴重程度和治療建議的綜合評估,進一步分析了白內障的正確診斷。廣義估計方程(GEE)方法是准似然方法的擴展,越來越多地用於分析縱向和其他相關數據,特別是當它們是二項分布或計數形式時。

我們使用了來自一個人的兩隻眼睛的數據,這些數據屬於相關數據,因此我們進行了GEE以確定CC-Cruiser和眼科醫師之間準確性,真陽性分數(TPF)和假陽性分數(FPF)的顯著差異。 TPF相當於靈敏度,FPF相當於1-特異性。 CC-Cruiser和眼科醫師所需的時間由Mann-Whitney U檢驗評估。患者對醫療服務的滿意度也計算為具有標準偏差的平均評級。進行Mann-Whitney U檢驗以確定兩組對每個問題反饋的顯著差異。 顯著性標準設定為α= 0.05。 對於所有模型,結果表示為比值比(OR),95%置信區間和p值的效應值估計。所有統計分析均使用SPSS(version20; SPSS, Inc., Chicago, IL, USA)進行。

結果

在2017年8月9日至2018年5月25日期間,對353名患者進行了資格篩選(圖1)。篩選後,三名非常年幼的孩子被排除在外,因為他們不能服用水合氯醛和進行裂隙燈攝影。其餘350名參與者(700隻眼)被隨機分配到AI組(350隻眼)或眼科醫師組(350隻眼)。隨機化後沒有參與者退出研究。這項研究有350名參與者(700隻眼睛)。兩組的基線人口統計學和疾病特徵(包括性別、年齡、家族史、眼部癥狀、白內障患者、白內障患者和白內障嚴重程度)具有可比性(表格1)。

根據白內障專家的標準,診斷的敏感性,特異性,準確性,PPV和NPV分別為89.7%,86.4%,87.4%,74.4%和95.0%。對於CC-Cruiser來說,這些指標分別為98.4%,99.6%,99.1%,99.2%和99.1%(表2)。CC-Cruiser兒童白內障的診斷準確性和TPF顯著更低(p

與眼科醫師相比,CC-Cruiser在評估不透明度區域,密度和不透明度位置時沒有顯示出統計學差異(分別為p = 0.463,0.286,和0.130)(表3)。CC-Cruiser提供的治療建議(手術與隨訪)明顯不如眼科醫師提供的(70.8%vs96.7%,p

CC-Cruiser提出診斷和治療建議所需的時間少於眼科醫師所需的時間(2.79分鐘vs8.53分鐘,p

在研究結束時,345名參與者完成了評估問卷(CC-Cruiser組172名,眼科醫師組173名)。由於個人原因,五名參與者的監護人未完成調查問卷。表5對調查問卷進行了總結。完成調查問卷的答覆率為AI組98.3%,眼科醫師組98.9%。病人對於CC-Cruiser提供的醫療服務的滿意度很高,尤其是診斷所需的時間。CC-Cruiser 整體滿意度的平均評分為3.47±0.501 , 高於眼科醫師(3.38 ± 0.554,p=0.007,表5),表明患者在接受醫療服務時比實際醫生更喜歡AI。

中國團隊完成醫療 AI 多中心臨床驗證,成果入選《柳葉刀》子刊封面

打開今日頭條,查看更多圖片

圖1. 實驗分組

中國團隊完成醫療 AI 多中心臨床驗證,成果入選《柳葉刀》子刊封面

表1:基線人口統計學和疾病特徵

表2:兒童白內障的診斷表現;以眼為分析單位(N=700),CC-Cruiser組350隻眼,眼科醫師組350隻眼。

中國團隊完成醫療 AI 多中心臨床驗證,成果入選《柳葉刀》子刊封面

表3:兒童白內障綜合評價及治療建議

中國團隊完成醫療 AI 多中心臨床驗證,成果入選《柳葉刀》子刊封面

表4:CC-Cruiser和眼科醫生的診斷過程需要時間;分析包含患者300例(CC-Cruiser組175例,眼科醫生組175例)。CC-Cruiser和眼科醫生進行Mann–WhitneyU 測試在所需時間上存在顯著差異。

中國團隊完成醫療 AI 多中心臨床驗證,成果入選《柳葉刀》子刊封面

表5:問卷調查參與者對臨床服務的反應

結論

在本研究中,我們發現CC-Cruiser在診斷兒童白內障和臨床治療決策上不如眼科醫師準確。然而,與眼科醫師相比,CC-Cruiser診斷耗時短,患者滿意度高。這些結果突出了在門診常規使用前使用隨機對照試驗評估CC-Cruiser臨床性能的重要性。

CC-Cruiser的實際診斷準確性低於我們之前使用篩選數據集進行的研究中報告的準確性。儘管CC-Cruiser在評估眼前段的306個標準圖像時非常準確,CC-Cruiser對43例質量差的白內障的誤診和評估往往不如眼科醫師準確,這可以歸因於幾個原因:

首先,由於畏光或缺乏注意力,一些兒科患者無法充分配合併將眼睛注視在相機上。因此,裂隙燈無法正確聚焦在晶狀體上。

其次,眼瞼和睫毛可能會形成遮擋,從而影響拍攝圖像的質量。

第三,如果反射點聚焦在視軸附近,則無法準確提取晶狀體反射點的特徵,導致CC-Cruiser對白內障的誤診,假陽性率較高。

第四,裂隙燈的強烈照射強度可能導致晶狀體混濁,這是CC-Cruiser的假陽性分數較高的另一個原因。

然而,這些問題通常可由眼科醫師識別,因為他們可以手動調整焦點並從不同的位置或角度來評估不透明度。較高的假陽性可能增加醫療資源的負擔和成本,並可能導致患者的身體或精神損害。

此外,雖然現階段CC-Cruiser的診斷可能還需要臨床醫生的介入(包括使用鎮靜劑)來保證圖像採集的質量,但我們相信醫療AI自動聚焦技術的進一步改進將實現更高的診斷準確性以及更少的人為介入。例如,對晶狀體反射點的識別的改進可以大大降低誤報率。

以往的研究表明,AI輔助診斷可以減輕醫生的工作量,並為有需要的患者提供高質量的醫療服務。在這裡,我們表明,在臨床應用中,醫療AI平台在縮短診斷時間方面優於人類醫生。CC-Cruiser組的參與者一致感覺得到了更快的診斷,即診所需的等待時間顯著減少。

患者對醫學AI的滿意度尚未得到充分研究。Laure等人使用電子健康網站Sanoia評估患者對類風濕性關節炎(RA)護理的滿意度。作者表明,研究人員發現,患者的滿意度與人工智慧平台的使用不一致,主要是因為RA是一種慢性疾病,在病情緩解時,患者可能對使用Sanoia失去興趣,對疾病的自我管理的投入也會減少。

然而,如果沒有早期診斷和適當的治療,兒童白內障可能對視力造成威脅。因此,兒科患者的家長迫切希望獲得醫療服務,高效地進行診斷和治療決策。

我們的研究表明,患者對CC-Cruiser的總體滿意度略高於眼科醫師,表明患者在使用AI醫療服務時具有良好的體驗。患者的滿意度可能是由於他們對醫學AI的好奇心或興趣,或者患者需要在診斷準確性和診斷時間之間取得平衡,更願意接受耗時更少、診斷準確性可接受的醫療服務。

因此,現階段的CC-Cruiser已顯示出在臨床應用中協助人類醫生的潛力。在未來的研究中,我們將致力於提高CC-Cruiser的準確性,以提高患者滿意度。

該研究的優勢包括其隨機、對照設計、大樣本以及數據來自中國的五個眼科診所。但是,我們的試驗有一些局限性。

首先,因為沒有視力模糊等癥狀的患者不太願意參與在這項研究中,我們可能錯過了一些晶狀體輕微渾濁的患者。因此,CC-Cruiser對早期白內障的評估需要進一步改善。

其次,CC-Cruiser提供的治療建議沒有考慮患者的一般情況。因此,CCCruiser提供的一小部分(6例)治療建議與專家提供的治療建議不一致,儘管已經準確評估了晶狀體的不透明度。 進一步提高治療決定能力需要考慮非眼科因素,如年齡和健康狀況。

第三,我們的人工智慧系統依賴於計算能力和互聯網的可訪問性,因此在沒有穩定互聯網的發展中地區進行CC-Cruiser廣泛應用可能存在困難。但是,那些可以上網的偏遠地區仍然可以享受CC-Cruiser提供的醫療服務。

第四,在該試驗中進行了一項整群隨機對照試驗(兒童患者維度的整群),因為隨機化是在患者的水平上進行的,觀察和分析是在眼睛水平上進行的。然而,設計隨機對照試驗設計時沒有考慮來自一個孩子的兩隻眼睛之間的簇內相關性。這將導致統計能力低於預期的0.8,因為集群隨機對照試驗比隨機對照試驗需要更大的樣本量才能達到相同的統計能力。

綜上所述,這是首個驗證人工智慧系統在眼科臨床診斷準確性和有效性的臨床隨機對照試驗。與眼科人類醫師相比,CC-Cruiser在診斷兒童白內障和做出治療決策時表現出較低的準確性,但在當前狀態下有能力協助人類醫生進行臨床實踐。我們需要臨床對照試驗進行進一步研究,以更好地評估醫學AI的真實診斷性能。雷鋒網雷鋒網

本文的補充數據可在https://doi.org/10.1016/j.eclinm.2019.03.001找到。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

獲近億元A輪融資,新石器L4級無人車量產交付升級之道

TAG:雷鋒網 |