當前位置:
首頁 > 最新 > Bioconductor的DNA甲基化晶元分析流程

Bioconductor的DNA甲基化晶元分析流程

一次偶然的搜索中發現biocondutor有個甲基化晶元的分析流程,剛好可以學習下,寫的真的很棒。

Bioconductor的DNA methylation workflow可以在http://www.bioconductor.org/help/workflows/methylationArrayAnalysis/中查看,教程開頭先對DNA甲基化晶元及其原理做了簡單的介紹,包括一些常見的術語:比如β value和M value,後面就正式進入DNA甲基化的分析方法的講解了。

下載測試數據

測試數據是放在中的,安裝官網的方法安裝下即可(PS.如果安裝時卡住,可以用Rstudio的Tools來安裝)

安裝後,比如我R包是默認安裝的R文件夾中的,所以我的數據路徑是,那麼可以列出該目錄下有哪些文件看看

測試數據總共有兩套數據(GSE49667和GSE51180),前者總共包括10個樣本,作為主要的測試數據;後者則只用了其一個樣本,作為測試數據中的異常樣本。樣本分組信息:從3個體(M28, M29, M30)中取4種不同的T-cell types(naive, rTreg, act_naive, act_rTreg),act_naive、act_rTreg是指對應經anti-CD3、anti-CD28 antibodies處理的naive、rTreg,以上分組信息也可以看數據目錄下的文件

作者提了最近幾年常見的DNA甲基化晶元分析的軟體,如,,,,和,最後還提到了用來做差異甲基化位點分析

讀入數據

先按照教程載入其所會用到的R包

其中,,,,是DNA甲基化分析專用R包,,是用於可視化的R包,,是用於一些數據處理的,則是用於差異甲基化分析的

用包的函數讀入IDAT格式的數據,其中文件是必須的,不然最後數據集中會缺少樣本信息;其產生的targets向量中包含了樣本信息外,還有IDAT格式數據的所在路徑,方便函數讀入數據

質控

以detection p-values評估每樣本中的每個CpG位點的質量,當p-values > 0.01時則說明該探針信號數據質量較低,需要去除

將平均detection p-values > 0.05的樣本認為是低質量的樣本;從結果中可以看出最後一個樣本的平均detection p-values遠遠大於0.05,因此從中去除(從的結構中看出,其數據分布是按照每列一個樣本來的)

標準化

現在有很多用於DNA甲基化晶元數據的標準化方法,其中一些方法已經整合在包中了;現在為止沒有一種標準化方法被認為是最好的方法,但是一些標準化方法在某些情況下是比較好的選擇,作者總結了如下幾點:

除了上述提的2個標準化方法外,包還支持(類似於Illumina的Genome Studio的標準化方法),(Subset-quantile within array normalisation)以及(normal-exponential out-of-band)

作者比較了這些標準化方法後,發現對於這次的測試數據,這幾種標準化結果都大體上相似的,所以作者最終選擇了用,標準化為rgSet從對象變成了mSetSq的對象,表示從探針的信號強度轉化到了beta value/M value,並且已mapping to Genome

我們也可以不做任何標準化處理,只為獲得對象用於下游分析

然後用包內置的函數,看看標準化前後的beta value的密度曲線

Data exploration

作者建議可以先做個主成分分析,如Multi-dimensional scaling (MDS) plots來看下樣本分布情況,可以根據情況自行選擇向量中的分組,如看下下的MDS plot,PS.這裡是用M value來作圖的

數據過濾

一些質量較差的探針需要在下游差異分析之前去除,之前的質控作者是用detection p-value去除了異常樣本,在這裡則需要去除在一些樣本中質量較差的探針

做完上述過濾和標準化後,作者建議再看下MDS plot,看看樣本之間的聯繫是否發生了改變。對這個測試數據而言,第一個主成分上樣本不像之前那麼集中了,作者懷疑是由於去除了SNP關聯的探針的緣故

作者使用包的和來分別計算M-values和Beta-values,作者認為M-values具有更好的統計特性,更適合用於進行下游的統計分析(差異分析等);而Beta-values更加容易解釋,更能說明生物學上的意義

並對兩者分別做了密度分布圖

差異甲基化分析

作者選了M-values作為後續分析的矩陣,對於差異甲基化位點的分析,作者沒有用包的函數,而是用了包的linear model來分析。所以按照的分析思路:

除了差異甲基化位點分析,作者還提了怎麼進行DMR(Differential Methylation Regions)分析;作者總結了幾個可用來DMR分析的bioconductor包,如:包的函數,包的函數。由於作者覺得函數運算速度過慢,除非使用多線程並行運算(如包),所以選擇用函數;並且由於這個函數也是基於,所以可以直接使用上面的和

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 生信技能樹 的精彩文章:

R包安裝大全-番外篇一

TAG:生信技能樹 |