lncRNA實戰項目-第五步-差異表達的mRNA和lncRNA
響應生信技能樹的號召:lncRNA數據分析傳送門, 一起來一個lncRNA數據分析實戰!
很明顯,得到了表達矩陣之後,根據上面的樣本信息,可以按照年齡,性別,取樣部位來進行分組找差異。
可以參考:https://github.com/jmzeng1314/my-R/tree/master/DEG_scripts
上一步驟得到了表達矩陣,兩個樣本分別是F_1yr.OC和M_1yr.OC, 所以接下來的差異分析就是比較1歲獼猴腦OC區域女性和男性的差別,差異分析的分析方法很多,主要根據前面標準化的方法,有基於counts的差異分析,也有基於標準化後的FPKM,TPM等的差異分析。
常見的R包有(摘自https://github.com/jmzeng1314/my-R/tree/master/DEG_scripts):
edgeR (Robinson et al., 2010)
DESeq / qDESeq2 (Anders and Huber, 2010, 2014)
DEXSeq (Anders et al., 2012)
limmaVoom
Cuffdiff / Cuffdiff2 (Trapnell et al., 2013)
PoissonSeq
baySeq
作業里給的參考是一步法差異分析,是對常見的R包做了下封裝,包括了對轉錄組的raw counts數據分析DEseq2包和edgeR包,及對於晶元等normalization好的表達矩陣數據的limma和t.test等。用的時候只要設置好表達矩陣和分組矩陣,然後選擇特定的方法,一步就可以進行差異分析。
但是這裡的樣本是無生物學重複的,無重複的數據做差異分析是一件很麻煩的事,可靠性都不能保證。。。但是目前由於測序的價格,還有樣本自身的珍貴稀缺性,部分實驗設計仍然是沒有生物學重複的。對於無重複樣本的差異分析有幾種方法可以選擇,如edgeR,DEGseq和GFOLD等。下面分別嘗試edgeR,DEGseq及GFOLD:
edgeR做無重複樣本的差異分析
edgeR針對無重複樣本給出了四條建議,第一條建議是僅分析MDS plot和fold changes,不做顯著性分析;第二條建議是設置合適的離散度值,然後做個exactTest 或glmFit;第三條看不懂;第四條建議是基於大量的穩定的參照轉錄本。
edgeR
DEGseq對無重複樣本差異分析
也有推薦DEGSeq 中MARS方法的(MARS: MA-plot-based method with Random Sampling model)。
MA.plot
GFOLD對無重複樣本進行差異分析
該軟體稱尤其適合做無重複樣本的差異分析,他對foldchange 的計算考慮到posterior distribution,即克服了pvalue評估顯著性的缺點,同時也克服了 fold change 在評估低counts 數的gene時的缺點。
下載軟體:
安裝GFOLD時,需要先安裝gsl,然後再編譯安裝gfold。
該軟體的功能包括5部分:
1)Count reads and rank genes;
2)Count reads;
3)Identify differentially expressed genes without replicates;
4)Identify differentially expressed genes with replicates;
5)Identify differentially expressed genes with replicates only in one condition.
下面是無重複樣本計算差異的例子:
對於前面得到的counts列表(hisat_matrix.out)每個樣本單獨分開,並命名為samplename.read_cnt(一定要加後綴.read_cnt).
這裡查看下F.OC.read_cnt是否有頭文件,若有最好注釋掉,否則後面差異結果有錯位。然後用gfold diff 一步就可以求出差異基因。輸出文件包含4列,第一列GeneID, 第二列是gfold值,gfold值的正負對應著基因的上調和下調,gfold=0認為是無差異的,E-FDR對無重複樣本總是1,第四列是log2fold change。
上調基因:4324,下調基因:4240,差異變化閾值設置gfold為1時,上調的基因有83個,下調有97個。
差異基因初步統計
用edgeR共篩選到1322個差異顯著基因(篩選條件:PValue1); 用DEGseq共篩選到743個差異顯著基因(篩選條件:abs(log2(Fold_change) normalized ) >1 & p-value < 0.05 & q-value(Storey et al. 2003) 1 && gfold
參考資料:
一步法差異分析:https://github.com/jmzeng1314/my-R/tree/master/DEG_scripts
從零開始學轉錄組(7):差異基因表達分析
從零開始學轉錄組(8):富集分析
RNA-seq項目設計:生物學重複和單個樣本測序量對結果的影響
clusterProfiler參考文檔
差異基因分析
文獻:Efficient experimental design and analysis strategies for the detection of differential expression using RNA-Sequencing
編輯:jimmy
後續分析,請大家持續關注
~
TAG:生信技能樹 |