當前位置:
首頁 > 最新 > lncRNA實戰項目-第五步-差異表達的mRNA和lncRNA

lncRNA實戰項目-第五步-差異表達的mRNA和lncRNA

響應生信技能樹的號召:lncRNA數據分析傳送門, 一起來一個lncRNA數據分析實戰!

很明顯,得到了表達矩陣之後,根據上面的樣本信息,可以按照年齡,性別,取樣部位來進行分組找差異。

可以參考:https://github.com/jmzeng1314/my-R/tree/master/DEG_scripts

上一步驟得到了表達矩陣,兩個樣本分別是F_1yr.OC和M_1yr.OC, 所以接下來的差異分析就是比較1歲獼猴腦OC區域女性和男性的差別,差異分析的分析方法很多,主要根據前面標準化的方法,有基於counts的差異分析,也有基於標準化後的FPKM,TPM等的差異分析。

常見的R包有(摘自https://github.com/jmzeng1314/my-R/tree/master/DEG_scripts):

edgeR (Robinson et al., 2010)

DESeq / qDESeq2 (Anders and Huber, 2010, 2014)

DEXSeq (Anders et al., 2012)

limmaVoom

Cuffdiff / Cuffdiff2 (Trapnell et al., 2013)

PoissonSeq

baySeq

作業里給的參考是一步法差異分析,是對常見的R包做了下封裝,包括了對轉錄組的raw counts數據分析DEseq2包和edgeR包,及對於晶元等normalization好的表達矩陣數據的limma和t.test等。用的時候只要設置好表達矩陣和分組矩陣,然後選擇特定的方法,一步就可以進行差異分析。

但是這裡的樣本是無生物學重複的,無重複的數據做差異分析是一件很麻煩的事,可靠性都不能保證。。。但是目前由於測序的價格,還有樣本自身的珍貴稀缺性,部分實驗設計仍然是沒有生物學重複的。對於無重複樣本的差異分析有幾種方法可以選擇,如edgeR,DEGseq和GFOLD等。下面分別嘗試edgeR,DEGseq及GFOLD:

edgeR做無重複樣本的差異分析

edgeR針對無重複樣本給出了四條建議,第一條建議是僅分析MDS plot和fold changes,不做顯著性分析;第二條建議是設置合適的離散度值,然後做個exactTest 或glmFit;第三條看不懂;第四條建議是基於大量的穩定的參照轉錄本。

edgeR

DEGseq對無重複樣本差異分析

也有推薦DEGSeq 中MARS方法的(MARS: MA-plot-based method with Random Sampling model)。

MA.plot

GFOLD對無重複樣本進行差異分析

該軟體稱尤其適合做無重複樣本的差異分析,他對foldchange 的計算考慮到posterior distribution,即克服了pvalue評估顯著性的缺點,同時也克服了 fold change 在評估低counts 數的gene時的缺點。

下載軟體:

安裝GFOLD時,需要先安裝gsl,然後再編譯安裝gfold。

該軟體的功能包括5部分:

1)Count reads and rank genes;

2)Count reads;

3)Identify differentially expressed genes without replicates;

4)Identify differentially expressed genes with replicates;

5)Identify differentially expressed genes with replicates only in one condition.

下面是無重複樣本計算差異的例子:

對於前面得到的counts列表(hisat_matrix.out)每個樣本單獨分開,並命名為samplename.read_cnt(一定要加後綴.read_cnt).

這裡查看下F.OC.read_cnt是否有頭文件,若有最好注釋掉,否則後面差異結果有錯位。然後用gfold diff 一步就可以求出差異基因。輸出文件包含4列,第一列GeneID, 第二列是gfold值,gfold值的正負對應著基因的上調和下調,gfold=0認為是無差異的,E-FDR對無重複樣本總是1,第四列是log2fold change。

上調基因:4324,下調基因:4240,差異變化閾值設置gfold為1時,上調的基因有83個,下調有97個。

差異基因初步統計

用edgeR共篩選到1322個差異顯著基因(篩選條件:PValue1); 用DEGseq共篩選到743個差異顯著基因(篩選條件:abs(log2(Fold_change) normalized ) >1 & p-value < 0.05 & q-value(Storey et al. 2003) 1 && gfold

參考資料:

一步法差異分析:https://github.com/jmzeng1314/my-R/tree/master/DEG_scripts

從零開始學轉錄組(7):差異基因表達分析

從零開始學轉錄組(8):富集分析

RNA-seq項目設計:生物學重複和單個樣本測序量對結果的影響

clusterProfiler參考文檔

差異基因分析

文獻:Efficient experimental design and analysis strategies for the detection of differential expression using RNA-Sequencing

編輯:jimmy

後續分析,請大家持續關注

~


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 生信技能樹 的精彩文章:

Bioconductor的DNA甲基化晶元分析流程

TAG:生信技能樹 |