當前位置:
首頁 > 最新 > 差異表達基因識別之晶元分析

差異表達基因識別之晶元分析

小夥伴們,今天給大家介紹的是生物信息學分析中最基礎的差異表達基因的篩選。篩選差異表達基因作為分析中最基礎也是非常重要的一個環節,自然而然有多種篩選方法啦。

11、倍數法

用倍數分析基因表達水平差異。S1和S2是基因在兩類樣本中的表達值。

FC>1,表示基因上調

FC

對於倍數法確定閾值比較困難,分析中通常以2倍差異為閾值。倍數法通常用於初步篩選差異表達基因。

12、t檢驗法

t檢驗法可以判斷基因在兩種不同條件下的表達差異是否具有顯著性。

零假設為基因在兩種不同條件下的平均表達水平相等,與之對應的備擇假設是不相等。

例如a是某基因在所有正常樣本中的表達值,b是某基因在所有癌症樣本中的表達值,在R中使用t.test(a,b)可以得到某基因在兩類樣本中是否有差異的P值,函數p.adjust()選擇FDR或Benjamini & Hochberg等多種方法中的一個矯正P值,最後保留矯正後P值顯著的基因即為差異表達基因。

13、方差分析

方差分析可用於基因在兩種或多種條件間的表達量的比較,它將基因在樣本之間的總變異分解為組間變異和組內變異兩部分。組間變異體現了不同條件帶來的基因表達的差異,組內變異體現了隨機誤差。通過方差分析的假設檢驗判斷組間變異是否存在,存在則表明基因在不同條件下的表達有差異。

R語言中使用函數aov()計算方差分析,summary()提取方差分析的信息。

14、SAM法

進行統計學假設檢驗時,最後得出的推斷結論不管是拒絕H0或是不拒絕H0,均可能發生錯誤,即I型錯誤或II型錯誤。I型錯誤是無差異表達的基因判斷為差異表達。II型錯誤是差異表達的基因判斷為無差異表達。運用t檢驗和方差分析進行差異基因篩選時,存在多重假設檢驗的問題,或導致假陽性率(型錯誤)增大。SAM方法糾正多重假設檢驗中的假陽性率。計算相對差異統計量d:

計算所有基因的d值,這些d值的分布應該獨立於基因的表達水平。擾動實驗條件,模擬基因在兩組間無表達差異的表達向量,計算擾動後的基因表達的相對差異統計量Dp,隨機擾動P次,計算所有擾動的平均相對差異統計量

確定差異表達基因的閾值:以最小的d正值與最大的d負值作為統計閾值d(t),運用該閾值統計在dE值中超過該閾值的假陽性基因個數,估計假陽性發現率FDR,FDR值為在所有判斷為差異表達的基因中假陽性基因的比例,通過調整FDR值的大小得到差異表達的基因。

R語言中使用R包』samr』中命令samr()可以實現。

CEPI感謝您的支持!

(IOS系統用戶專用通道)

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 公眾號 的精彩文章:

【原來儒此】解析蘭亭序
軍人優先不是什麼特殊待遇,而是無數官兵默默守衛以及付出鮮血生命代價換來的!
再看特勞特先生的定位理論長效定律 促銷降低收益
我的工作 我的崗
死並不可怕,可怕的是生的人怎麼都接受不了這個永別

TAG:公眾號 |