當前位置:
首頁 > 最新 > 機器學習方法檢測癌症基因組圖譜中激活的Ras信號通路

機器學習方法檢測癌症基因組圖譜中激活的Ras信號通路

更多資訊,敬請關注

Ras通路因癌症類型不同經常變化。通常通過功能獲得的KRAS、NRAS或HRAS基因突變或NF1功能丟失事件,Ras通路被激活,細胞增加轉譯輸出,出現不受抑制的細胞增殖。胰腺癌、皮膚黑色素瘤、甲狀腺癌、肺腺癌和結腸癌主要由Ras通路基因突變驅動。此外,Ras突變也被認為是導致腫瘤發生的早期事件,與不良生存率和治療抗性相關。由於Ras通路廣泛失調,研髮針對該通路的特定治療靶點是抗癌藥物研發的重點之一,但Ras又很難成為治療靶點。要改變這點,關鍵是能精確檢測到失能基因位點。

評估Ras通路激活最直接的方法是通過Ras的靶向測序,但該方法檢測不到激活的Ras表型突變體中其它基因的未知突變,而針對這類腫瘤的檢測可使更多患者有靶向治療的機會。本文編譯至Cell雜誌4月發表的Machine Learning Detects Pan-cancer Ras Pathway Activation in The Cancer Genome Atlas一文,介紹應用機器學習從泛癌圖譜中整合出龐大的RNA測序、拷貝數和突變數據,並將該方法應用於Ras基因檢測,證實泛癌Ras激活。

檢測RAS信號泛癌激活

機器學習是使用數據或以往的經驗優化計算機程序的性能標準。TCGA研究團隊開發了一種機器學習方法,用於檢測腫瘤中的異常通路活性。該模型用癌症基因組圖譜(TCGA)的33種不同癌症類型9075例腫瘤數據訓練,有一套完整的檢測方法

使用KRAS、HRAS和NRAS突變和拷貝數增加的信息訓練分類器檢測腫瘤中異常的Ras活性。這3個核心Ras基因隨癌症類型不同變動很大,KRAS突變在某些癌症中廣泛存在,占胰腺癌的72%、結腸癌45%、直腸腺癌42%和肺腺癌31%;而NRAS突變在皮膚黑色素瘤中常見,佔31%。研究團隊對這些腫瘤做表達差異分析,控制腫瘤類型,比較野生型與Ras異常腫瘤之間的關係。

為使分類器的分類代表更平衡,減少性能度量上的膨脹,從33種癌症類型中選擇了16種進行訓練,以中位數絕對偏差(MAD)分析前8000個最易突變表達的基因,然後隨機地抽取10%的樣本(n=476)創建測試集。測試集內,有相同比例癌症類型和Ras狀態的又被列入訓練集,訓練集中還包括剩餘的90%樣本(n=4283),含3374例Ras野生型腫瘤和909例非沉默體細胞Ras突變體。訓練集內,進行5倍交叉驗證。根據這些癌症類型的特徵,設為訓練(training)、交叉驗證(CV)和保留測試集(testing),並從最初訓練篩選結果中評估癌症類型的最終分類器。

KRAS、HRAS或NRAS基因的拷貝數增加和有害突變的Ras通路異常癌症類型特異性百分比。彩色方塊表示癌症類型是否包含在模型訓練中(來源cell)

總體而言,分類器表現出高性能。在訓練過程中,分類器能檢測到組織中並未暴露的Ras激活信號。最後將分類器用於全部9,075例樣本,得到86.7% 的受試者工作曲線特徵曲線下面積(AUROC)和61.2%的精確率-召回率曲線下面積(AUPR)。

Ras分類器由自動學習的基因權重和重要性分數構成。彈性網路罰分訓練產生分類器稀疏數據,僅185個基因適用於分類。權重>0的基因和協變數解釋為在激活Ras腫瘤中上調,而權重為負的基因具有野生型Ras腫瘤特徵。Ras異常與野生型腫瘤之間的差異表達分析反映下游基因情況。

RAS信號分類器的基準分析

採用數種分析方法評估了Ras分類器的抗變換性。空模訓練在隨機拖曳基因表達矩陣上進行,保留測試和交叉驗證集的AUROC約50%、AUPR 20%左右,而模型數據超過基線。同時還分別評估了分類器檢測Ras突變和Ras拷貝數增加的性能。總體來說兩種性能相似,但單獨突變模型比組合模型好,單獨拷貝數模型表現最差。模型對基因表達矩陣中剔除的KRAS、NRAS、HRAS和其它11種Ras致病基因的抗變換性穩定,也不受協變數信息的影響。

在細胞系中檢測激活Ras信號

TCGA腫瘤數據訓練的Ras分類器預測能否推廣到細胞系呢?為了解該情況,在兩個細胞係數據集上進行了測試。分類器首先應用到10個小氣道上皮細胞RNA測序圖譜(GEO:GSE9437),含4個野生型和6個KRASG12V表達突變體圖譜。分類器正確地區分了10個中的9個,排序結果顯示全部突變圖譜比所有野生型譜高(P= 1.16E-2)(圖3A)。儘管泛癌圖譜數據不包括基因編輯的腫瘤而不能直接評估Ras致癌性,獨立測試集的細胞系卻能穩定地表達致癌KRAS突變體。

泛癌圖譜腫瘤訓練的Ras分類器應用於小氣道上皮細胞數據集(GEO:GSE9437),突變細胞包括穩定表達KRASG12V突變細胞(來源cell)

接下來Ras分類器分析了癌細胞系百科全書(CCLE)737個不同細胞系對應表達和突變數據的RNA測序圖譜。分類器對Ras野生型細胞系中的Ras突變(KRAS、HRAS或NRAS)打了更高分數。被預測為野生型393個細胞系中,357個被標記為野生型(陰性預測值=90.8%),但被預測為Ras突變的344個細胞系僅153個被標記為Ras突變體(精度=44.5%),即737個細胞系中有510個被正確預測,僅69.2%,精度偏低。精度低預示兩種情況,要麼分類器尚不能推廣,要麼是分類器成功識別出表型突變。

回答這兩種可能的方法是用未曾提供給分類器的獨立信息。首先,檢測BRAF基因的突變狀態,BRAF是Ras基因下游典型致癌基因。如BRAF突變模擬Ras表型突變,則為陰性,排序高會降低觀察精度。與BRAF野生型細胞系相比,分類器為BRAF突變細胞系賦分明顯更高。所有191個假陽性中,56個有BRAF突變,佔29.3%。其餘假陽性是腫瘤錯誤分配或腫瘤顯示其它表型突變。接下來檢測CCLE藥理反應數據,確定Ras分類器評分是否預測了對MEK抑製劑的敏感性。結果顯示Ras分類器評分與賽洛替尼(AZD6244)和PD-0325901兩種MEK抑製劑敏感性高度相關。相關性主要由Ras基因野生型細胞系所驅動,暗示有幾個可能是直接Ras基因測序錯過的藥物敏感細胞系。Ras野生型細胞系的附加突變和藥物應答數據的評估結果強烈地表明,低精度極大可能是與表型突變事件相關。

最後,該分類器對有Ras突變但被視作Ras野生型的34個細胞系打分,發現這34個假陰性細胞系中有22個在COSMIC資料庫中注釋了突變,佔64%。相反,152個真陽性中的144個有COSMIC突變體,佔95%,顯著高於假陰性的比例。

其它Ras通路表型突變模擬Ras激活

Ras分類器能檢測NF1基因丟失,特別是在多形性膠質母細胞瘤、低級別膠質瘤、嗜鉻細胞瘤和副神經節瘤等中樞神經系統腫瘤中。性能與用癌症類型和泛癌模型構建的NF1分類器相當,但這些腫瘤類型並不包含在Ras分類器的訓練中。Ras分類器在結腸癌、卵巢漿液性囊腺癌和子宮體子宮內膜癌中檢測NF1基因失活事件也得到改善,其預測NF1功能丟失的性能與專門訓練檢測該事件的不同泛癌模型相當。

用Ras分類器評估38個核心Ras通路基因,共包括34個致癌基因和4個抑癌基因;對泛癌圖譜腫瘤中所有檢測到的Ras通路也做評分。KRAS、NRAS和HRAS致癌基因突變的腫瘤富集高分值,致癌BRAF突變分數也被富集。但在甲狀腺癌中BRAFV600 E突變絕大多數都被預測為Ras野生型。

最後,在KRAS、NRAS和HRAS野生型樣本中,如有其它通路後續基因突變,Ras分類器評分增加;有KRAS、NRAS或HRAS突變的樣本,通路中其它基因附加突變後,分類器得分沒有改變;但其它Ras通路基因中拷貝數增加導致Ras突變樣本的Ras分類器得分較低。以上結果提示Ras通路基因外的Ras基因多次突變可能增加Ras激活表型。

KRAS、NRAS、HRAS的Ras活性狀態、異常突變數和其它Ras通路成員的拷貝數變化的Ras分類器評分分層。上方頂部第一行數字表示每個組樣本數,第二行表示分配給活化Ras樣本百分比。

討論

研究團隊提出在轉錄組基礎上,用機器學習預測個體腫瘤Ras活性。該方法能避開某些限制,明確多個基因組檢測結果,確定Ras激活情況,鑒定出更多Ras激活的患者,可作為提高腫瘤學精確性的補充研究。使用單細胞RNA測序數據訓練分類器能實現罕見事件的檢測,特徵化瘤內異質性。隨著數據規模的增加,通過構建更好演算法模擬疾病異質性,研究通路錯誤調節下游應答,勢必會改進針對個體腫瘤多個靶點的多模型治療。

資料來源

Way, G.P.,et al. Machine Learning Detects Pan-cancer Ras PathwayActivation in The Cancer Genome Atlas.Cell Reports, 2018, 23, 172–180.

(特約翻譯:鄺琦;常務編輯:馬娃妮)

歡迎垂注我們的微信號:RoizmanSiitm

深圳羅茲曼國際轉化醫學研究院

由美國芝加哥大學微生物、分子基因生物學系和芝加哥大學醫學院的終身教授,美國科學院、醫學院、發明家學院/中國工程院外籍院士伯納德?羅茲曼(Bernard Roizman Sc.D.)創辦,學院重在培養科研人才,在中國進行轉化醫學研究和生物醫藥的研發,並對研究成果進行產業化。

伯納德?羅茲曼(Bernard Roizman Sc.D.)簡介

伯納德?羅茲曼是美國芝加哥大學微生物、分子基因生物學系和芝加哥大學醫學院的終身教授。他畢生從事於單純皰疹病毒的分子生物學研究,擁有「皰疹病毒之父」之稱。羅茲曼終身致力於對皰疹病毒分子生物結構的全方位解讀,在破譯單個病毒基因功能以及部分基因對病毒潛伏感染和激活的作用,以及病毒改造治療癌症等領域取得重要進展。

地址:深圳市大鵬新區葵涌街道金業大道140號生命科學園A10棟


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 癌症 的精彩文章:

癌症最喜歡的5類食品,有可能你天天都在吃,早知道早受益
癌症人群越來越多,哪些方法可以幫我們有效預防癌症?

TAG:癌症 |