當前位置:
首頁 > 最新 > 利用TCGA資料庫挖掘MicroRNA預測多形性膠質母細胞瘤的預後

利用TCGA資料庫挖掘MicroRNA預測多形性膠質母細胞瘤的預後

作者 粟米貓

1

前言索引

多形性膠質母細胞瘤(glioblastoma multiform,GBM)是最常見的中樞神經系統原發性腫瘤,目前針對該病的治療以手術、放化療為主,但療效較差,特別是患者的總生存率(overall survival,OS)仍然不容樂觀。

眾所周知,miRNA在各種生物過程中起主要作用,目前針對miRNA的作用中主要以基礎實驗為主。而miRNA與GBM的關係已經有相關的文獻進行了報道[1]。

現在較多的研究主要是通過收集臨床樣本進行基礎實驗的方法來驗證。那麼有什麼比較省錢又能做出滿意的科研效果的方法呢?

看過前幾期文章的人應該對我們的套路有了一定的認識,那就是生物資料庫的挖掘及使用。

本次通過TCGA的資料庫為基礎,挖掘有利的數據後採用統計學方法來評估miRNA對GBM患者總生存期(OS)的預測價值。主要思路是什麼呢?請往下面看。

2

邏輯思路

1.挖掘miRNA數據:不廢話,這是基礎,不想做實驗就要學會充分利用資料庫進行數據挖掘,省錢又省事,還有理論依據,畢竟這是站在前人的肩膀上。在TCGA(https://tcga-data.nci.nih.gov/tcga/tcgaHome2.jsp)網站中搜索及選擇了GBM的3級miRNA表達譜。那麼怎麼選擇數據呢?因為本次研究的目的是要觀察患者的OS,所以那些重中之重是要避免生存率<1個月的患者。

2.數據處理:拿到了數據後圍繞目的,在GBM中鑒定具有預後價值的miRNA,在這個文章中,主要採用了R語言進行標準化,選取的miRNA係數矩陣為≥0.04或≤0.4。然後採用了主成分分析進而Lasso法用於高維數據回歸分析來篩選miRNA。而針對GBM預後的影響預後的因子中,作者選用了患者的臨床指標:年齡、性別、篩選的miRNAs。

3.預後模型和ROC曲線的使用:總所周知,要觀察預後的情況,Cox回歸模型為的建立是必不可少了的,因此在這裡,作者建立了線性miRNA預後模型來估算患者的預後評分。並採用了ROC曲線來觀察預後的性能。而在5年OS的測試組的ROC曲線中,依據最佳敏感性及特異性的預後評分為臨界值,分為了高風險組和低風險組。採用Kaplan-meier曲線評估兩組的生存情況,以P<0.05為具有統計學意義。

3

方法剖析

接下來,我們的重點來了,看看作者到底怎麼用這些數據的,得到了什麼結果呢?

1.具有預後價值的miRNA:依據納入標準,作者共納入了563例患者,根據主成分分析後470個miRNA中選出了315個miRNA的成分評分係數矩陣≥0.4或≤0.4。經LASSO分析之後,將315個miRNA進一步減少為9個潛在預測因子(見下圖)。

包括hsa-miR-148a,hsa-miR-175p,hsa- miR-222,hsa-miR-302d,hsa-miR-487b,hsa-miR-608,hsa-miR-646,hsa-miR-649和hsa-miR-675。對於隨後的分析,我們將患者隨機分為training set(n = 282)和testing set(n = 281)。兩組平均年齡分別為58.0和57.9歲。兩組患者年齡和生存時間無顯著差異(P> 0.05)。

多變數邏輯回歸分析包括以下臨床指標和9種miRNA後,作者發現hsa-miR-222,hsamiR-302d,hsa-miR-646和年齡是預測患者OS的影響因素,見表1。

2.miRNA預測模型的建立:依據上表的結果,我們可以輕易的得出預後評分的公式了:預後評分=(0.112×hsa-miR-222表達水平)+(-3.671×has-miR-302d的表達水平)+(- 2.971×hsa-miR-646的表達水平)+(0.023×年齡)。

然後依據這個公式,作者算出GBM中5年生存率預測能力的,經ROC曲線繪製後,training set的曲線下面積(AUC)為0.841(95%CI,0.689-0.993)(圖2A),testingset的AUC為0.894(95%CI,0.789-1.000)(圖2B),所有GBM患者的AUC為0.854(95%CI,0.744-0.964)(圖2C)。

根據用於預測testing set的5年OS的ROC曲線,在截止點為-36.5428時,靈敏度為90.6%,特異性為75.0%,因此以此作為計算最佳預後評分的臨界值,分為兩組:高風險組和低風險組。與風險較低的患者相比,TCGA GBM的患者的風險評分較高的患者OS明顯短於高評分的患者(P

3.三個miRNA在GBM的靶標預測及功能富集分析:由miRwalk資料庫(http://zmf.umm.uni-heidelberg.de/apps/zmf/mirwalk2/)預測三個miRNA的靶基因數量分別為9017個、15613個和9625個。

然後進行功能富集分析,以闡明三個miRNA特徵的靶基因的生物學功能,結果發現共有645條路徑,納入了GO分析的前20個富集的功能分析見圖4。

由圖我們可知,最主要的的生物過程是轉錄調控。最主要的富集通路為軸突導向信號通路。

4

思維發散

看完上述的講解,大家對數據的使用方法和意義是否用了一定的了解呢?

這篇文章的特點相信大家也能有個總結,沒做實驗、沒納入臨床數據分析,但是分值還有點小高(本篇IF=5.168),那麼為什麼能發出這個分值的文章呢?

本編認為除了充分利用TCGA資料庫外,作者還結合了自己紮實的統計學知識對數據的利用達到了出神入化的地步。首先拿到數據後,在心中默念三遍自己的研究目的——生存預後分析,然後生存預後分析常用的方法是什麼?納入臨床樣本研究,但是好麻煩,這裡都有數據了,可以直接分析了啊,那就logistic回歸分析、Cox回歸分析一起來吧。

基於這篇文章,我們可以看出作者的思路明確且套路滿滿,最大化的利用了生物信息學挖掘的資源來做了GBM的生存預測,且效果不錯。經過這一系列的分析就得到了結論,三個miRNA(hsa-miR-222,hsamiR-302d,hsa-miR-646)能對GBM的預後進行有效的預測。

現在大家對這篇文章是不是有了較深的了解了呢,沿用這個思路,我們可以引申到其他疾病中,若想在此基礎上更深入的了解的話,還可以結合臨床樣本進行驗證,相信也會是一個不錯的思路。

[1]高秀娟,陳熹,彥偉,等.血清microRNA在多形性膠質母細胞瘤術預後評估中的研究[J].中國腫瘤臨床。2016,43(13):562-566.

[2]Yuan Y,Zhang H,Liu X,et al.MicroRNA signatures predict prognosis of patients with glioblastoma multiforme through the Cancer Genome Atlas[J].Oncotarget,2017,8(35):58386-58393.

END


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 科研加減法 的精彩文章:

TAG:科研加減法 |