當前位置:
首頁 > 最新 > 微生物組間差異分析之LEfSe分析

微生物組間差異分析之LEfSe分析

LEfSe分析,可以分析組間菌群差異,找出各組間差異的微生物種類,有助於開發biomaker等研究,因此LEfSe分析在微生物相關文章中經常出現。我們今天來詳細講解一下LEfSe分析的原理及圖表解讀。

LEfSe分析原理

Step1.首先在多組樣本中採用非參數因子Kruskal-Wallis秩和檢驗檢測不同分組間丰度差異顯著的物種;也就是圖中按class1 和class2兩個大的分組,每一行都進行檢驗,初步得到差異物種,通過檢驗的打鉤進入step2檢驗;

Step2.再利用Wilcoxon秩和檢驗,對每一組中的亞組進行兩兩檢驗,具有顯著差異的再進行下一輪檢驗。

Step3.最後用線性判別分析(LDA)對數據進行降維並評估差異顯著的物種的影響力(即LDA score)。

前兩步的Kruskal-Wallis秩和檢驗、Wilcoxon秩和檢驗比較簡單,類似T檢驗或者方差檢驗等,只不過T檢驗和方差分析為參數檢驗(要求數據符合方差齊性、正態分布),而在微生物多樣性分析中,樣品物種丰度分布不確定,多採用非參數檢驗,所以採用非參數的Kruskal-Wallis秩和檢驗、Wilcoxon秩和檢驗。比較複雜一點的就是最後的LDA分析。

LDA是一種監督學習的降維技術,也就是說其數據集中的每個樣本是有類別輸出的。是在目前機器學習、數據挖掘領域經典且熱門的一個演算法這點和PCA不同。PCA是不考慮樣本類別輸出的無監督降維技術。LDA是有監督的,所以LDA演算法可以很好的利用樣本的分組信息,得到的結果更可靠,這就是LDA分析優勢。理解了LDA分析的原理,就不難理解LEfSe的分析結果了。

LDA分析原理:

LDA是一種經典的降維方法線性判別分析(Linear Discriminant Analysis)。LDA的思想可以用一句話概括,就是「投影后類內方差最小,類間方差最大」。什麼意思呢? 我們要將數據在低維度上進行投影,投影后希望每一種類別數據的投影點儘可能的接近,而不同類別的數據的類別中心之間的距離儘可能的大。

可能還是有點抽象,我們先看看最簡單的情況。假設我們有兩類數據 分別為紅色和藍色,如下圖所示,這些數據特徵是二維的,我們希望將這些數據投影到一維的一條直線,讓每一種類別數據的投影點儘可能的接近,而紅色和藍色數據中心之間的距離儘可能的大。

上圖中提供了兩種投影方式,哪一種能更好的滿足我們的標準呢?從直觀上可以看出,右圖要比左圖的投影效果好。因為右圖的黑色數據和藍色數據各個較為集中,且類別之間的距離明顯,而左圖則在邊界處數據混雜。以上就是LDA的主要思想了,當然在實際應用中,我們的數據是多個類別的,我們的原始數據一般也是超過二維的,投影后的也一般不是直線,而是一個低維的超平面。

LEfSe分析結果:


圖中展示了LDA Score大於設定值的物種(less_strict 設為2;more_strict 設為4),即組間具有統計學差異的Biomarker。展示了不同組中丰度差異顯著的物種,柱狀圖的長度代表差異物種的顯著性(即為 LDA Score)。

進化分支圖:

在進化分支圖中,由內至外輻射的圓圈代表了由界(單個圓圈)至屬(或種)的分類級別(不同的分類水平下圓圈的層數不同,下圖為order水平下進化圖,所以有4層)。在不同分類級別上的每一個小圓圈代表該水平下的一個分類,小圓圈直徑大小與相對丰度大小呈正比。著色原則:無顯著差異的物種統一著色為黃色,差異物種 Biomarker跟隨組進行著色,紅色節點表示在紅色組別中起到重要作用的微生物類群,綠色節點表示在綠色組別中起到重要作用的微生物類群,其它圈顏色意義類同。圖中英文字母表示的物種名稱在右側圖例中進行展示。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 組學大講堂 的精彩文章:

TAG:組學大講堂 |