中國團隊完成醫療 AI 多中心臨床驗證，成果入選《柳葉刀》子刊封面

新聞 05-17

在一些特定的病種上，AI的表現大有超越醫生之勢。然而，很多醫療AI產品還在研發和試驗訓練階段。在實際的比較試驗中，尚未使用大規模未經過濾的臨床數據評估醫學AI在疾病診斷和治療決策中的有效性。大家就有疑問，AI在投入真實臨床應用的情況到底會如何？

雷鋒網了解到，近日，中山大學中山眼科中心劉奕志和林浩添眼科人工智慧團隊牽頭完成了最新的臨床多中心隨機對照研究，用來比較CC-Cruiser和傳統眼科診所的醫生之間的臨床差異。這篇論文以封面文章的形式發表在全球權威醫學期刊《柳葉刀》子刊EClinicalMedicine（ECM）最新一期（2019 Mar）上。

CC-Cruiser是由中山大學中山眼科中心（ZOC）醫學人工智慧團隊利用深度學習建立的「先天性白內障人工智慧診斷決策平台」，該協作雲平台支持個體醫院之間的患者數據共享，用於數據集成和患者篩查。CC-Cruiser採用的訓練數據集包括410例兒童白內障眼圖和476例正常眼睛圖像，這些圖像來自中國罕見疾病專科護理中心的中國衛生部兒童白內障項目（CCPMOH）

摘要

背景：CC-Cruiser是一種用於診斷兒童白內障並提供風險分層和治療建議的人工智慧平台。之前在特定數據集上驗證了CC-Cruiser的高精度。本研究的目的是比較CC-Cruiser和眼科醫生在實際臨床環境中的診斷效果和治療決策能力。

方法：這項多中心隨機對照試驗在中國不同地區的五個眼科門診進行。未確診白內障或既往眼科手術史的兒童患者（年齡≤14歲）隨機（1：1）接受CC-Cruiser或眼科醫師（具有5年以上兒科眼科臨床經驗）的診斷和治療建議。提供金標準的專家與進行裂隙燈拍攝和數據分析的研究人員不知道分組情況。

主要結果參照白內障專家標準對兒童白內障的診斷。次要結果包括疾病嚴重程度和治療確定的評估，診斷所需的時間以及患者滿意度，其由平均評分確定。該試驗已註冊ClinicalTrials.gov (NCT03240848)。

調查結果：2017年8月9日至2018年5月25日期間，350名參與者（700隻眼）被CC-Cruiser（350隻眼）或眼科醫生（350隻眼）隨機分配診斷。CC-Cruiser的白內障診斷和治療確定的準確率分別為87.4％和70.8％，分別顯著低於眼科醫師的99.1％和96.7％（p

解釋：與眼科醫師相比，CC-Cruiser在診斷兒童白內障和做出治療決策方面不太準確。但是，CC-Cruiser提供的醫療服務所需時間更少，取得了高水平的病人滿意度。CC-Cruiser有能力在其目前的臨床實踐中協助人類醫生。

方法2.1 研究設計和參與者

這是一個在五個中國眼科診所進行的大型、多中心、平行組、隨機對照試驗。我們的研究遵循了綜合報告試驗標準（CONSORT）指南。該試驗的主要研究中心是中山大學中山眼科中心。另外四家診所分別為深圳市眼科醫院、武漢市中心醫院、福建醫科大學第二附屬醫院、開封眼科醫院。我們選擇了來自不同地區的這些合作醫院，以代表中國各地醫療保健環境的多樣性。

研究人員根據這些醫院眼科診所的納入標準招募參與者。參與者如果年齡小於14歲，有或沒有眼部癥狀，並且先前沒有眼科手術史，則有資格參加該研究。所有參與者都需要進行裂隙燈攝影（slit-lamp photography），必要時使用水合氯醛（chloral hydrate）等鎮靜劑。已經明確診斷為白內障，其他眼部正常或眼外傷的患者被排除在外。

在開始時獲得每個參與兒童的至少一名監護人的書面知情同意，並且在整個研究期間遵循赫爾辛基宣言（Declaration of Helsinki）中的原則。該研究方案得到了ZOC倫理委員會和所有合作中心機構審查委員會的批准，包括深圳市眼科醫院，武漢市中心醫院，福建醫科大學第二附屬醫院和開封眼科醫院。該試驗在Clinical Trials.gov（NCT03240848）註冊。

2.2 隨機化和盲法

參與者被隨機（1：1）接受CC-Cruiser或眼科醫師的診斷，其中一名參與者（兩隻眼睛）被隨機分配到同一組。通過隨機數生成程序進行集中隨機化，沒有分層因素以避免選擇偏倚。每個研究中心的研究人員評估了每位患者的資格。如果患者符合納入標準，則研究者將患者的信息發送給研究協調員，協調員通知研究者有關分配的組。由經過培訓的臨床工作人員在每個參與的診所進行裂隙燈攝影和患者招募。臨床工作人員、參與數據管理和分析的研究人員以及在每個診所提供金標準診斷的專家對組的分配不知情，以預防確認偏倚。研究參與者、眼科醫師、研究協調員和負責隨機化的研究者不隱瞞分配信息。

2.3 規程

ZOC兒童白內障中心的CC-Cruiser平台通過互聯網與所有合作診所相連。已建立CC-Cruiser網站（https://www.cc-cruiser.com/version1），其中包含指南和說明的演示視頻。註冊用戶可以將新病例上傳到CC-Cruiser，輸出結果包括：診斷（正常晶狀體與白內障），綜合評估（不透明區域，密度和位置）以及治療建議（手術與隨訪）。具有至少5年兒科眼科臨床經驗的眼科醫師在每個中心提供初步診斷。投資者為每位符合條件且同意的參與者創建了一份資料，並記錄了他們的人口統計信息和基線臨床特徵，包括性別、出生日期、白內障家族史和眼部癥狀。每個中心的參與調查員和臨床工作人員在試驗前接受了研究程序的標準化培訓。所有符合條件的參與者在分組前進行瞳孔擴張的裂隙燈攝影，其中漫射光為單一標準，裂隙燈照明強度適當和眼睛位置統一。臨床工作人員嘗試每隻眼睛不超過三次。研究人員對43名非常年輕的患者使用鎮靜劑（水合氯醛），否則他們將不配合這項檢查。

AI組的參與者在裂隙燈攝影后被分配到AI診所。研究人員將眼前段的圖像發送給CC-Cruiser並接受初步診斷（正常晶狀體與白內障），並對疾病嚴重程度（晶狀體混濁度和不透明度區域，密度和位置）進行綜合評估，並提供治療建議（手術與隨訪）。研究人員計算了訪問CC-Cruiser並接受初步診斷所需的時間。眼科醫師組的參與者被分配到常規眼科診所。眼科醫師向患者提供初步診斷報告，包括疾病嚴重程度和治療決策。研究人員還計算了診斷過程所需的時間。

在接受初步診斷後，所有具有識別號碼的參與者都接受了專家小組的金標準診斷，其中包括三名白內障專家，他們具有超過10年的眼科臨床經驗。專家小組進行了裂隙燈檢查，達成了共識，為每位患者做出最終的診斷和治療決策。在初步診斷報告和標準診斷之後，要求參與者及其監護人完成關於他們對診斷準確性和效率的滿意度的問卷調查。

2.4 結果

主要結果是診斷正常晶狀體與白內障的準確性。由於沒有可用於兒科白內障的國際分類系統，因此評估小兒白內障的參考標準是白內障專家的診斷。研究人員使用白內障專家的金標準診斷結果比較了CC-Cruiser的診斷準確性與眼科醫師的診斷準確性。次要結果包括評估疾病嚴重程度，進行診斷所需的時間以及患者滿意度。綜合評估疾病嚴重程度，不透明區域（廣泛與有限），密度（密集與非密集），位置（中央與外周）和治療建議（手術與隨訪）。

當不透明度覆蓋超過50％的瞳孔時，不透明度區域被定義為廣泛；否則，它被定義為有限的。當不透明度完全破壞眼底成像時，不透明度密度是密集的；否則，它被定義為非密集的。當不透明度完全覆蓋視軸區域時，不透明度位置被定義為中心；否則，它被定義為外圍。

由於診斷是基於眼前段的裂隙燈圖像，因此診斷所需的時間是從圖像採集開始到完成CC-Cruiser或眼科醫師的初始診斷報告和治療建議。通過七項問卷對患者滿意度進行評估和分析。得分為1表示不同意；2表示中性；3表示同意和4表示非常同意。記錄每個項目的參與者數量和百分比，並計算每個項目的平均評級。

2.5 統計分析

使用來自CC-Cruiser的對比測試的數據，我們計算出需要至少700隻眼睛的樣本量（假設分配比例為1：1，每組350隻眼睛）來比較CC-Cruiser和眼科醫師之間的診斷準確性。由CC-Cruiser接診的人工智慧門診預期準確率為90％，眼科醫師門診的預期準確率為95％，統計能力為80％，統計顯著性水平為5％。

研究分析遵循全面的、預先規定的統計分析計劃。在基線記錄人口和臨床數據。統計分析基線人口統計學和疾病特徵，以確定所有350名參與者（700隻眼睛）被隨機分成兩個研究組。因為沒有患者在招募後停止或退出治療人數與每個方案人口相同。然後，我們主要分析隨機分配後初始的所有患者。診斷準確性的分析在眼睛水平，並且同一人的雙眼分別在同一組中進行分析。

我們根據金標準（白內障專家）計算了CC-Cruiser和眼科醫師的敏感度，特異性、準確性、陽性預測值（PPV）和陰性預測值（NPV）。通過對疾病嚴重程度和治療建議的綜合評估，進一步分析了白內障的正確診斷。廣義估計方程（GEE）方法是准似然方法的擴展，越來越多地用於分析縱向和其他相關數據，特別是當它們是二項分布或計數形式時。

我們使用了來自一個人的兩隻眼睛的數據，這些數據屬於相關數據，因此我們進行了GEE以確定CC-Cruiser和眼科醫師之間準確性，真陽性分數（TPF）和假陽性分數（FPF）的顯著差異。 TPF相當於靈敏度，FPF相當於1-特異性。 CC-Cruiser和眼科醫師所需的時間由Mann-Whitney U檢驗評估。患者對醫療服務的滿意度也計算為具有標準偏差的平均評級。進行Mann-Whitney U檢驗以確定兩組對每個問題反饋的顯著差異。顯著性標準設定為α= 0.05。對於所有模型，結果表示為比值比（OR），95％置信區間和p值的效應值估計。所有統計分析均使用SPSS（version20; SPSS, Inc., Chicago, IL, USA）進行。

結果

在2017年8月9日至2018年5月25日期間，對353名患者進行了資格篩選（圖1）。篩選後，三名非常年幼的孩子被排除在外，因為他們不能服用水合氯醛和進行裂隙燈攝影。其餘350名參與者（700隻眼）被隨機分配到AI組（350隻眼）或眼科醫師組（350隻眼）。隨機化後沒有參與者退出研究。這項研究有350名參與者（700隻眼睛）。兩組的基線人口統計學和疾病特徵（包括性別、年齡、家族史、眼部癥狀、白內障患者、白內障患者和白內障嚴重程度）具有可比性（表格1）。

根據白內障專家的標準，診斷的敏感性，特異性，準確性，PPV和NPV分別為89.7％，86.4％，87.4％，74.4％和95.0％。對於CC-Cruiser來說，這些指標分別為98.4％，99.6％，99.1％，99.2％和99.1％（表2）。CC-Cruiser兒童白內障的診斷準確性和TPF顯著更低（p

與眼科醫師相比，CC-Cruiser在評估不透明度區域，密度和不透明度位置時沒有顯示出統計學差異（分別為p = 0.463，0.286，和0.130）（表3）。CC-Cruiser提供的治療建議（手術與隨訪）明顯不如眼科醫師提供的（70.8％vs96.7％，p

CC-Cruiser提出診斷和治療建議所需的時間少於眼科醫師所需的時間（2.79分鐘vs8.53分鐘，p

在研究結束時，345名參與者完成了評估問卷（CC-Cruiser組172名，眼科醫師組173名）。由於個人原因，五名參與者的監護人未完成調查問卷。表5對調查問卷進行了總結。完成調查問卷的答覆率為AI組98.3％，眼科醫師組98.9％。病人對於CC-Cruiser提供的醫療服務的滿意度很高，尤其是診斷所需的時間。CC-Cruiser 整體滿意度的平均評分為3.47±0.501 ，高於眼科醫師（3.38 ± 0.554，p=0.007，表5），表明患者在接受醫療服務時比實際醫生更喜歡AI。