新年好,相關性分析了解一下?
歲月不僅僅在你的臉上留下痕迹,還使你發胖~
大哥大嫂過年好呀~
春節過得怎麼樣呀,有沒有被親戚們的熱情感動到啊
看著長輩和晚輩們親切的眼神
此時的小昌只想發自肺腑地說一句:我要工作!
是的,讓我們沉浸在學習和工作中吧,忘掉那些不愉快的事。
慣例,先來看一篇2017年發表在Diabetologia(影響因子為6.080)上的文章,標題為《前驅糖尿病患者腸道菌群異常》。
該病例對照研究共分析了134名前驅糖尿病和134名血糖正常的人腸道菌群,發現5個細菌屬和36個OTU存在很大差異,對OTU相對丰度和臨床生物指標構建相似性矩陣,矩陣熱圖如下(紅色為正相關,藍色為負相關);方格中的數值為顯著性檢驗的p值。
研究某種疾病與菌群的關係時,往往涉及多個變數,通常包括樣本、物種、基因、環境因子、代謝物、蛋白、代謝通路等等。如果能夠找到變數之間的關係,並把這種關係用適當的數學模型表達出來,就可以利用這一模型根據給定的變數進行預測。
相關分析即是用來研究變數之間的關係,弄清楚變數之間是否存在關係,他們之間是什麼關係,變數之間的關係強度如何,以及樣本所反映的變數之間的關係能否代表總體變數之間的關係。
對成對數據進行相關性係數的計算和檢驗(多重≠多元),主要使用R語言中的cor.test()函數,其中有3種方法可供使用,分別是Spearman檢驗、Kendall檢驗和Pearson檢驗。
(其他方法還包括Hmisc包中的rcorr, 以及psych包中的corr.test;SPSS也是不錯的選擇)
而三種相關性檢驗技術中,Pearson相關性的精確度最高,但對原始數據的要求最高。Spearman等級相關和Kendall一致性相關的使用範圍更廣,但精確度較差。具體問題具體分析,下面就來詳細了解一下三種相關性檢驗有什麼不同。
劃重點
1. Pearson相關係數
2. Spearman秩相關係數(例子)
3. Kendall秩相關係數
一
Pearson相關係數
Pearson相關係數,是度量兩個變數之間線性關係強度的統計量,記為r,計算公式為:
1.適用條件
服從正態分布的定距變數;
兩個數據序列的數據要一一對應,等間距等比例(觀測值是成對的,每對觀測值之間相互獨立)。數據序列通常來自對同一組樣本的多次測量或不同視角的測量。
極端值對積差相關係數的影響極大,因此要慎重考慮和處理,必要時可以對其進行剔出,或者加以變數變換,以避免因為一兩個數值導致出現錯誤的結論。
2.性質:
r的取值範圍在-1和+1之間,即-1≤r≤1。r大於0,表示正相關;r小於0,表示負相關;r=0表明x與y之間不存在線性相關關係。
r具有對稱性。x與y之間的相關係數和y與x之間的相關係數相等。
r數值的大小與x和y的原點及尺度無關。改變x和y的數據原點或計量尺度,並不改變r數值的大小。
r僅僅是x與y之間線性關係的度量,它不能用於描述非線性關係。當變數之間的非線性相關程度較強時,就可能會導致r=0,此時不能輕易得出兩個變數之間沒有關係的結論,而應結合散點圖做出合理解釋。
r雖然是兩個變數之間線性關係的度量,卻不一定意味著x與y一定有因果關係。
對於一個具體的r取值,根據經驗可將相關程度分為以下幾種情況:當r≥0.8時,可視為高度相關;0.5≤r<0.8.可視為中度相關;0.3≤r<0.5時,視為低度相關;當r<0.3時,說明兩個變數之間的相關程度極弱,可視為不相關。(建立在顯著性檢驗的基礎之上才可以這樣解釋)
3.相關係數的檢驗
r是根據樣本數據計算出來的,它受到樣本波動的影響;能否根據樣本相關係數說明總體的相關程度,就需要考察樣本相關係數的可靠性,也就是顯著性檢驗。
相關係數的顯著性檢驗通常採用R.A.Fisher提出的t分布檢驗,該檢驗可以用於小樣本,也可用於大樣本。
原假設為變數之間不相關,如果統計量P<α,就拒絕原假設,表明總體的兩個變數之間存在顯著的線性關係。
二
Spearman秩相關係數
Spearman秩相關係數,也稱等級相關係數,屬於非參數統計方法,記為rs。
當定距數據不滿足正態分布,不能使用皮爾遜相關分析,這時,可以在相關分析中引入秩,藉助秩實現相關性檢驗,即先分別計算兩個序列的秩,然後以秩代替原始數據,代入到皮爾遜相關係數公式中,得到斯皮爾曼相關係數公式:
1.適用條件
不服從雙變數正態分布的資料;
總體分布類型未知;
兩個數據序列的數據一一對應,等間距等比例。數據序列通常來自對同一組樣本的多次測量或不同視角的測量。
2.性質
與Pearson相關係數類似,Spearman秩相關係數的取值範圍也為[-1,1], 當檢驗概率小於0.05時,表示兩列數據之間存在相關性。
Spearman秩相關係數不僅可以直接用秩來計算,也可以將數值型數據轉化為秩來計算。
對於服從Pearson相關係數的數據亦可計算Spearman相關係數,但統計效能要低一些。
3.實例
Table1:為隨機森林挑選出的物種相對丰度表格
Table2:為樣本對應的環境因子
若想了解物種與物種間的相關性,則只使用Table1計算相關性矩陣,顏色表示相關性的正負及相對大小,「*」表示顯著性:
或用圓圈大小表示相關性的相對大小,顏色表示正負,空白為不顯著:
如果想了解物種與環境因子的相關性,則需要合併Table1和Table2:
三
Kendall秩相關係數
Kendall相關係數與Spearman秩相關係數一樣,也是對兩個順序變數之間相關程度的一種度量,屬於非參數統計方法,記為τ。
當既不滿足正態分布,也不是等間距的定距數據,而是不明分布的定序數據時,不能使用Pearson相關和Spearman相關。此時,在相關分析中引入「一致對」的概念,藉助「一致對」在「總對數」中的比例分析其相關性水平。
舉例說明:
設所觀察的一組樣本數據對為(x1,y1),(x2, y2),…,(xn,yn),將 x 的 n 個數據的秩按由小到大排列,y的n個數據的秩也相應地發生變動。 比如,x和y的 秩分別為:
x: 2 4 3 1
y: 3 4 1 2
將x的秩按由小到大排列後,x和y的秩則為下面的形式:
x: 1 2 3 4
y: 2 3 1 4
由於x的秩已按從小到大排列,因此x的觀察值每兩個之間都是一致對。再看y的情況,第一個秩為2,第二個秩為3,因為2小於3,是按自然順序增加的,因此這是一個一致對;再看2和1,由於1小於2,不是按自然順序增加排列,所以是一個非一致對。依次考察下去,凡是一致對記為+1,非一致對記為-1。考察結果如下表所示:
在x的秩按從小到大排列時,y的秩對的最大可能評分也應該是按從小到大排列的秩對的評分,也就是說,只有當y的秩對全部是一致對時,每一數對的秩均為+1,這時y的秩對的評分最大。這樣,在x和y的評秩完全一致的情況下,最大可能的評分總數應該是一個組合。比如在上例中是。若有n個觀察數對兩兩秩對之間評分,最大可能的總分為。用實際的評分與最大可能總分相比,就可以測定兩組秩之間的相關程度。
用U表示y的一致對數目,V表示y的非一致對數目,則一致對評分與最大可能總分之比為:
非一致對評分與最大可能總分之比為:
Kendall相關係數(記為r)的計算公式為:
或
數據要求:適用於不明分布的定序數據
小結:
Pearson相關適用於正態分布、連續變數或是等間距測度的數據;Spearman相關適用於不明分布、連續變數;Kendall相關適用於兩個分類變數均為有序分類的情況;
當資料不服從雙變數正態分布或總體分布型未知或原始數據是用等級表示時,宜用Spearman或Kendall相關;
若不恰當用了Kendall等級相關分析則可能得出相關係數偏小的結論;因此對一般情況默認數據服從正態分布的,宜用Pearson分析方法。
今天就到這裡啦,記得明天也要元氣滿滿地上班哦。
參考資料:
統計學_第五版_賈俊平_編著
Aberrant intestinal microbiota in individuals with prediabetes


TAG:態昌基因 |