當前位置:
首頁 > 最新 > 擴增子圖表解讀2散點圖:組間整體差異分析

擴增子圖表解讀2散點圖:組間整體差異分析

背景介紹(Introduction)

宏基因組學

宏基因組學目前的主要研究方法包括:16S/ITS/18S擴增子、宏基因組、宏轉錄組和代謝組,其中以擴增子研究最為廣泛。

目的意義

本系列文章將帶領大家結合較新的16S擴增子相關文獻,來理解宏基因組16S擴增子文章中常用圖表種類、圖中包括的基本信息,以及作者想表達的結果。

主要內容

本系列文章內容包括:箱線圖、散點圖、熱圖、曼哈頓圖、維恩圖、三元圖和網路圖等。

學習思路

羅列知識點,熟悉專業名詞,弄個臉熟,即使理解不深刻起碼在閱讀中不會有抵觸情緒;

結合具體文章讀圖,實戰兩三次,基本就是專業人士了。

將來在大家可以很好理解相關文章圖表的基礎上,希望對分析、統計和繪圖相關技術有進一步學習的小夥伴請積極回復並留言吧。如果本系統文章閱讀過萬,想學分析的留言過百。我還將詳細講解擴增子分析、統計和繪圖各步驟的分析實例和源代碼,希望大家多多鼓勵和支持。

聲明:文章的解讀僅代表個人理解和觀點,有不足處,請讀者積極留言批評指正,互相學習,共同進步。

知識點(Method)

散點圖

數據點在直角坐標系平面上的分布圖。A scatter plot (also called a scatter graph, scatter chart, scattergram, or scatter diagram) is a type of plot or mathematical diagram using Cartesian coordinates to display values for typically two variables for a set of data.

在宏基因組領域,散點圖常用於展示樣品組間的Beta多樣性,常用的分析方法有主成分分析(PCA),主坐標軸分析(PCoA/MDS)和限制條件的主坐標軸分析(CPCoA/CCA/RDA)。

Beta多樣性

Beat多樣性是生態學概念,專指不同組或生態位間物種組成的差異。詳見Wiki

分析方法

在讀文章中經常可以看到PCA分析、PCoA分析,NMDS分析,CCA分析,RDA分析。它們在本質上是排序(ordination)分析。排序的過程就是在一個可視化的低維空間(通常是二維)重新排列這些樣品,使得樣方之間的距離最大程度地反映出平面散點圖內樣品間的關係信息。常用的排序方法如下:

1、只使用物種組成數據的排序稱作非限制性排序(unconstrained ordination)

即無限制條件,只找所有樣品間的最大差異的投影平面,主要方法如下:

主成分分析(principal components analysis,PCA)是一種常用的數據間差異分析方法。PCA通過線性變換將原始數據變換為一組各維度線性無關的表示,可用於提取數據的主要特徵向量,常用於高維數據的降維。原理推薦閱讀PCA的數學原理。

對應分析(correspondence analysis, CA)

去趨勢對應分析(Detrended correspondence analysis, DCA)

主坐標分析(principal coordinate analysis, PCoA)

非度量多維尺度分析(non-metric multi-dimensional scaling, NMDS)

在非限制性排序中,分析種類很多,但原理相近。16S和宏基因組數據分析通常用到的是PCA分析和PCoA。原理有時間可以細讀,但至少知道是用坐標間距離來反應樣品間差異大小即可。

PCA和PCoA分析的區別:PCA分析是基於原始的物種組成矩陣所做的排序分析,而PCoA分析則是基於由物種組成計算得到的距離矩陣得出的。

2、同時使用物種和相關環境因子組成數據的排序叫作限制性排序(constrained ordination)

即尋找某一條件下,可最大限制解釋這一條件的投影平面。條件可以為連續(溫度、濕度、pH值、各種土壤理化性質等)或非連續的變數(如人為分組、基因型、地理位置、取樣時間、實驗批次等)。常分析方法有:

冗餘分析(redundancy analysis,RDA)

典範對應分析(canonical correspondence analysis, CCA)。

此類方法可以計算某一條件下,各組間是否存在顯著差異,並且可以計算出該條件下平面展示的差異占樣品間總體差異的比例

RDA或CCA的區別:RDA是基於線性模型,CCA是基於單峰模型。一般我們會選擇CCA來做直接梯度分析。但是如果CCA排序的效果不太好,就可以考慮是不是用RDA分析。RDA或CCA選擇原則:先用species-sample資料做RDA分析,看分析結果中Lengths of gradient 的第一軸的大小,如果大於4.0,就應該選CCA,如果3.0-4.0之間,選RDA和CCA均可,如果小於3.0, RDA的結果要好於CCA。

距離計算方法

樣品兩兩間的距離計算方法也有多種方法,大家都應該聽過Euclidean(歐幾里德)吧,即有非常有名的歐氏距離(Euclidean distance)。在生物學研究中,主要分為兩大類,一種是物種距離(如常用Jaccard,Bray-Curtis);另一種是基於進化的距離(Unifrac),基於進化的距離還包含權重(Weighted)和非權重(Unweight)兩種。

在選擇上,我習慣用Bray-Curtis距離,是因為這種方法在我研究的方面有比較好的結果。習慣上我是每種距離都做分析,那種能更好的解釋科學問題就用那種。

看圖實戰(Result)

示例1. 非限制條件的PCoA

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 公眾號 的精彩文章:

SVIP專屬表情包
1捆麻繩+1瓶酒精膠=N個家居小裝飾
區塊鏈全球24小時
迪麗熱巴寵粉力MAX現場 完整的品牌發布會回顧
女人暗示你進攻絕對有戲的五點暗語,到手的泥鰍別溜走了

TAG:公眾號 |

您可能感興趣

微生物組間差異分析之LEfSe分析
動作一:30秒一組 4組 每組間隔休息30秒
Data Brief:基因組間的數量性狀基因座位點、相關性分析和重疊基因的數據集
布白第八講——字組與字組間的布白方法
組間休息過長影響增肌效果?增肌訓練,組間休息多久才合適?
健身組間休息謬誤,組間休息不是去恢復肌肉
綜述:如何確定組間休息時長?
組間訓練是最常見的增肌訓練,究竟休息多久更利於增肌?
健身組間休息越短越好嗎?不一定,組間休息多久時間,由它決定
什麼是超級組訓練?僅僅是沒有組間休息這樣簡單嗎?
組間休息時間控制很重要,引起重視,別讓肌肉泵感白白流失了
訓練組間應當休息多久?
組間休息太長力量會下降,為什麼?
肌肉涼涼了嗎?組間休息幫你度過訓練瓶頸期,組間休多久最見效?
優化你的訓練,組間的休息時間大比拼,哪種對你最有利?
怎麼衡量減肥是否有效?力量訓練組間休息多久才合適?
合理安排健身組間休息,可以讓你進步更快
組間休息多長時間才能讓你的訓練效果最大化?
組間休息時間長,訓練效果就大打折扣了嗎?真相在這裡
組間休息是什麼?如何控制它的時間,對生長激素的分泌最有利