當前位置:
首頁 > 最新 > 癌症研究世界地圖!TCGA泛癌臨床數據資源的整合

癌症研究世界地圖!TCGA泛癌臨床數據資源的整合

更多資訊,敬請關注

2006年,癌症基因組圖譜(The Cancer Genome Atlas, TCGA)計劃以多形性膠質母細胞瘤(GBM)、肺鱗狀細胞癌(LUSC)和卵巢漿液性囊腺癌(OV)開始為期3年的試點項目,2009年~2015年全面展開。到項目截止,TCGA網路研究工作者已描繪了33種癌症類型10,000餘例患者的腫瘤分子特徵,並定義了很多腫瘤分子亞型。TCGA包含的臨床關鍵特徵代表泛化的數據收集。為確保正確使用這些具基因組特徵的海量臨床數據,最近TCGA完成一批重大成果,發表在CellPress旗下的期刊。

本文對4月5日發表Cell上的一文進行編譯。文章闡述以OS(總生存期)、PFI(無進展間隔)、DFI(無病間隔)和DSS(疾病相關存活)為四個主要臨床結果終點的TCGA泛癌症臨床數據資源(TCGA-CDR)標準化資料庫,並給出了每種癌症類型的終點使用建議。TCGA臨床數據可從基因組數據共享空間(GDC)門戶網站下載,所有的分子數據在https://gdc-portal.nci.nih.gov/legacy-archive下載。臨床數據和分子數據使用同樣的條碼結構,便於患者的臨床資料和樣本分子數據整合。

TCGA泛癌資料庫隊列特徵

圖1A為臨床數據整合和分析方法及4個主要臨床終點衍生和評估的流程圖,對33份初始登記和97份後續數據文件,共33種癌症類型111,60例癌症患者的資料進行了處理。表1為每個TCGA隊列的基本特徵。按原發腫瘤樣本根據分子特徵選入每個隊列,皮膚黑色素瘤(SKCM)的原發和轉移灶兩種類型都有,其它極少數腫瘤的原發與轉移類型也有研究。

圖1. 臨床數據整合和分析方法及4個主要臨床終點衍生和評估流程圖

表1. TCGA 泛癌隊列特徵

臨床結果終點OS、PFI、DFI和DSS

總生存期(OS)很重要,優點是定義OS事件時模糊性最低。但使用OS作終點可能削弱臨床研究,因為非癌死因不一定能反映出腫瘤生物學、侵襲性或對治療緩解。使用OS或需更長的隨訪時間;很多臨床試驗中,通常採用相對隨訪時間較短的DFI或PFI。針對現有TCGA臨床數據,要認識到短時臨床隨訪間隔在侵襲性癌症類型結果的重要性,因為可能幾年內就觀察到臨床事件,在死亡前已出現病情複發或進展。對侵襲性較弱的癌症類型,患者在數十乃至幾十年後複發,隨訪期間可能無法觀察足夠事件以支持可靠結果供判斷。該分析的目的是檢查TCGA泛癌臨床療效檢測的相對優勢和不足,指導今後的分析和避免隨訪間隔時間不足等缺陷。

分析全部TCGA臨床數據後,結論如下:在數據可獲得時,OS、PFI及DFI相對精確,但多數情況下只能估計DSS。圖1B為33種不同癌症類型的OS K-M曲線。儘管生存分析不是TCGA主要目標,多數癌症類型生存曲線與過去評估相同生存終點的獨立研究基本相同,GBM、OV(2008, 2011)和低級別膠質瘤(LGG)(2015)的TCGA結果就是最好例證。PFI、DFI和DSS的K-M曲線見圖1C–1E。

圖1 B-E臨床數據分析

基於每種癌症類型4個終點的觀察時間計算平均隨訪時間及事件或檢查的中位時間(表2)。所有腫瘤的中位隨訪時間為22.1個月,但不同類型癌症該時間差異極大;GBM和急性髓系白血病(LAML)最短約12個月,而腎嫌色細胞癌(KICH)最長約48個月。

表2 總體中位隨訪時間及4個終點的事件與觀察中位時間

推薦使用的臨床結果終點

臨床結果終點選擇取決於研究目標、事件數量、隊列大小和結果數據質量。將這些方法和開發的其它方法作為對單個疾病資料庫的測試和補充檢查,給出在每種疾病類型中使用每個結果終點的建議及原因(表3)。每種癌症類型的生存終點需要至少通過一個主要測試和補充檢查才被接受。33種癌中的13種使用全部4個終點:膀胱尿路上皮癌(BLCA)、宮頸鱗狀細胞癌(CESC)、結腸癌(COAD)、食管癌(ESCA)、頭頸部鱗狀細胞癌(HNSC)、腎乳頭狀細胞癌(KIRP)、肺腺癌(LUAD)、LUSC、OV、胰腺癌(PAAD)、肉瘤(SARC)、胃腺癌(STAD)和子宮內膜癌(UCEC)。相反,沒有一個終點的有嗜鉻細胞瘤和副神經節瘤(PCPG)。淋巴腫瘤瀰漫大B細胞淋巴瘤(DLBC)、LAML和胸腺瘤(THYM)僅一個終點;剩餘癌症類型2或3個終點,但其中一些持保留意見。最可靠的是PFI,可無保留地推薦給除LAML(無數據)、DLBC和KICH(謹慎使用)和PCPG(不推薦)外的4種腫瘤。

表3 終點OS,PFI,DFI及DSS的評估與推薦使用

驗證TCGA-CDR及案例應用

在乳腺癌研究中,雌激素ER陰性患者臨床生存期預後比ER+腫瘤患者差。分別用OS、PFI、DFI和DSS比較這兩類腫瘤患者的生存期(圖3A–3D;曲線截止於10年隨訪時間,但使用整個資料庫進行分析)。單因素分析顯示,使用PFI(p= 0.005)和DFI(p = 0.001)作為臨床終點,TCGA中ER+乳腺癌患者比ER-患者有更好的生存期,但使用OS時兩類患者間不存在差異(p = 0.097) 。此外,兩類患者的DSS(p = 0.009)有顯著差異,表明DSS的潛在價值。以上發現證實了PFI和DFI是特定類型乳腺癌分子研究的合適終點。

圖3 驗證和應用實例

此外還驗證了侵襲性GBM生存結果終點。TCGA中GBM中位OS為12.6個月,介於此前報道的標準治療的12.1個月和標準治療聯合替莫唑胺的14.6個月之間。中位PFI是6.1個月,介於此前報道的標準治療5個月和標準治療聯合替莫唑胺的6.9個月之間。顯然,TCGA資料庫OS和PFI事件時間與文獻一致。再次印證OS和PFI作為GBM分子研究的臨床終點效度。

用Cox比例風險回歸模型確定高期(III、IV期)相對低期(I、II期)癌症患者的風險比(HR),驗證4個終點的TCGA-CDR數據。由於DFI定義與其它結果的定義不一致,對推薦使用OS、PFI和DSS的14種類型癌症比較logHR(表3)。隨後僅對滿足Cox比例風險假設的疾病進行統計(圖3E–3G)。結果表明,14種類型癌症中,除間皮瘤(MESO)、PAAD和葡萄膜黑色素瘤(UVM)外,高期對比低期HR在3個推薦終點OS、PFI及DSS上明顯偏高。採用配對樣本的Wilcoxon秩和檢驗,當使用PFI與DSS(p = 0.0008)或PFI與OS(p = 0.039)測量時,logHR有顯著差異,顯示疾病進展和生存終點在HR上存在系統偏差;OS與DSS之間沒有顯著差異(p = 0.106)。對2個logHR值的標準誤進行逆加權平均確定Pearson相關係數, 由logHR估計的3種結果有極顯著正相關:PFI和OS相關係數0.96(95%置信區間[CI]:0.77–0.99),PFI和DSS為 0.95(95%置信區間:0.76–0.99),OS和DSS為0.90(95%置信區間:0.61–0.98)。這些相關性潛在支持臨床早期用PFI,後期用OS和DSS做終點。

除了整合分子數據,還嘗試分析首次治療後無病患者與非無病患者是否出現不同的新腫瘤事件。TCGA-CDR中29類癌症信息用於解決該問題,納入患者從診斷到完成首治並達到無病狀態至少存活3個月。以LUSC為例,有289例無病患者和41例長期非無病患者,NTE率分別為21.8%和68.2%。用Cox比例風險回歸模型,發現在非無病患者中NTE風險顯著高於無病患者(HR = 6.68,95% CI = 4.25–10.51,FDR調整q值<0.05)。在另外21種癌症類型中也有類似結果(表4)。餘下7種腫瘤中沒有觀察到這些差異。我們也在評估是否每個模型都滿足比例風險假設,其中有兩個不符合,需要研究時間依賴及多變數模型來尋找原因。

表4 非無病與無病患者NTE發展對比

TCGA從全球數百個站點收集病例,為解決臨床數據不同站點間的可比性,需考慮數據完整性、腫瘤和患者特徵等。對每種疾病而言,我們對比了前兩名提供病例數最多的組織來源站點(TSS)與所有其它TSS的同種疾病及4個結果終點(表5)。

表5 對來自前兩位TSS的每個癌症類型研究結果進行比較

對於GBM等極具侵襲性的腫瘤,前兩位TSS(#1和#2)的發病人群與其它TSS相比類似的有OS、PFI和DSS,因事件太少難以分析不推薦DFI做終點。BRCA等較低侵襲性腫瘤,強力推薦使用PFI和DFI,但建議謹慎用OS或DSS評估。TSS #1的臨床數據產生不太好的OS和DSS,但沒有觀察到PFI差異;另外,表面上TSS#1有更好的DFI結果,僅出現3例 DFI事件。這種表裡不一的現象表明該站點的結果數據需進一步評估。另一方面,TSS #2的4個終點結果與其它地方一致。

這個簡單的結果比較表明,當從特定結果分析整體TCGA的臨床數據時,需要考慮TSS的具體信息。由於年齡、腫瘤分期/分級及治療等因素影響不同TSS患病人群的終點結果,TSS可以作為這些和不完全臨床注釋等其它未測量差異的替代。

潛在的混雜因素、競爭結果的

風險及模型假設

對臨床生存終點分析來說,建議使用所處理的全部臨床數據。但相比分子/基因組數據的整合分析,要注意兩個方面。首先,推薦意見基於基線生存模型,以分子亞型作預測因子劃分樣本集,有可能破壞結果統計的顯著性差異。因此,從互相關聯的TCGA分子數據或腫瘤亞型TCGA-CDR結果數據中得出的結論需在獨立的腫瘤資料庫中進一步證實。

第二,我們建議僅使用原發腫瘤的分子數據,因為患者初診時,重要時間信息等匹配的臨床數據已收集相對完整。皮膚黑色素瘤(SKCM)在TCGA腫瘤類型中非常特殊,470例腫瘤中僅103例原發腫瘤,其餘296例為原發腫瘤局部淋巴結轉移,68例遠端轉移。這與很少收集到轉移瘤的其它TCGA癌症類型形成鮮明對比。SKCM轉移瘤很少具有匹配的原發腫瘤,而其它TCGA癌症類型儘管很少有轉移瘤,但都具有匹配的原發樣本。因此,對於SKCM結果的相關性,建議只使用有限數量的原發病例,儘管SCKM淋巴結轉移的III期病例可作為獨立組群進行研究。

在使用新整合的TCGA-CDR資料庫時,還需要注意:潛在混淆因素、競爭結果的風險及模型假設。

混雜因素

混雜因素存在但被排除在模型之外時,偏差可能高估或低估真實療效。如在乳腺癌的種族差異研究中,白人與黑人患者之間存在重要的基因表達差異,然而根據分子亞型進行調整後,這種差異顯著減少甚至消失。治療效果也是潛在的混雜因素,當信息可獲取時應適當考慮調整。治療未知時,年齡、診治醫院及診斷年份等標準治療作為替代信息能減少部分誤差。對這方面的決策建模,鼓勵使用腫瘤標誌物預後研究建議報告(REMARK)。

競爭結果的風險

測定DSS、DFI和PFI終點時,要對沒有經歷重要事件且無病的死亡患者進行審查。在這種情況下,如果假設患者沒有其它死因,那她/他最終仍可能死於癌症指征。然而,在估計治療等預測因子對繼發性癌症或心血管疾病等非指數癌症死亡風險的預測能力時,該假設並不可取。

模型假設

應用Cox比例風險(PH)模型必須檢查PH假設。除少數案例外,大多數模型都滿足Cox PH假設,但需進一步探索這些個案以找出違背假設的原因,從而對HR做出更準確的估計。儘管已經為清理數據和解決問題付出了巨大努力,但仍存在重要的使用限制,訪問TCGA臨床數據都必須了解這些限制。

首先,TCGA主要是為分子研究設計,最初病例選擇來自多個機構具有合適庫存組織的未治療原發病例,因此這些病例不構成連續性。此外,對於每種不同腫瘤類型/研究,隨訪數據沒有統一收集。同時,臨床數據收集的一些規則在過去不得不隨著時間的推移而改變。TCGA - CDR不包含癌症治療史,並非所有病例都被注釋。因此,分析特定腫瘤類型或亞型的治療背景優於概況性泛癌分析。當患者進行具體治療時,受益能用DFI和PFI終點有效分析。

其次,TCGA樣本臨床隨訪根據當地診所的時間表,可能為疾病或特定部位的複發和病人重要生命狀態的記錄,因此沒有TCGA指定的臨床隨訪計劃,僅給出項目主要強調的腫瘤分子特徵。

最後,幾乎所有TCGA獲得的腫瘤樣本和基因組及分子數據來自新診患者原發腫瘤的單個切片,由此產生的基因組和分子數據不能在空間或時間任何方面明確捕獲代表另一患者結果變數的腫瘤異質性。該問題不是TCGA獨有的,任何靜態原發性腫瘤研究都存在。

展望

這項工作是有史以來第一次全面系統地處理TCGA泛癌臨床資料。由此產生的TCGA-CDR的結果終點與獨立非TCGA研究結果一致,說明該資源在空前規模的臨床尺度上提供了生物觀測新視角。也要認識到TCGA-CDR的內在使用局限性及關鍵性指導和推薦意見。已經非常明晰,人類疾病未來大規模的分子研究必須系統地收集臨床病理、治療和轉歸事件數據,以堅持最高標準的臨床研究。儘管有其局限性,TCGA-CDR提供了標準化資料庫,以及清晰的4個臨床結果終點導出,並解決了質量問題,從而在泛癌和個體水平上進行轉化研究。未來數據研究的融合將提高結果之間的可比性,更好地解釋和支持重複。

參考資料

An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 癌症 的精彩文章:

「為什麼得癌症的偏偏是我?」這7件事,你做到了嗎?
為什麼男性型脫髮被稱為脫髮中的癌症?頭等大事 怎能忽視

TAG:癌症 |