新年好，相關性分析了解一下？

最新 02-25

歲月不僅僅在你的臉上留下痕迹，還使你發胖~

大哥大嫂過年好呀~

春節過得怎麼樣呀，有沒有被親戚們的熱情感動到啊

看著長輩和晚輩們親切的眼神

此時的小昌只想發自肺腑地說一句：我要工作！

是的，讓我們沉浸在學習和工作中吧，忘掉那些不愉快的事。

慣例，先來看一篇2017年發表在Diabetologia（影響因子為6.080）上的文章，標題為《前驅糖尿病患者腸道菌群異常》。

該病例對照研究共分析了134名前驅糖尿病和134名血糖正常的人腸道菌群，發現5個細菌屬和36個OTU存在很大差異，對OTU相對丰度和臨床生物指標構建相似性矩陣，矩陣熱圖如下（紅色為正相關，藍色為負相關）；方格中的數值為顯著性檢驗的p值。

研究某種疾病與菌群的關係時，往往涉及多個變數，通常包括樣本、物種、基因、環境因子、代謝物、蛋白、代謝通路等等。如果能夠找到變數之間的關係，並把這種關係用適當的數學模型表達出來，就可以利用這一模型根據給定的變數進行預測。

相關分析即是用來研究變數之間的關係，弄清楚變數之間是否存在關係，他們之間是什麼關係，變數之間的關係強度如何，以及樣本所反映的變數之間的關係能否代表總體變數之間的關係。

對成對數據進行相關性係數的計算和檢驗（多重≠多元），主要使用R語言中的cor.test()函數，其中有3種方法可供使用，分別是Spearman檢驗、Kendall檢驗和Pearson檢驗。

（其他方法還包括Hmisc包中的rcorr，以及psych包中的corr.test；SPSS也是不錯的選擇）

而三種相關性檢驗技術中，Pearson相關性的精確度最高，但對原始數據的要求最高。Spearman等級相關和Kendall一致性相關的使用範圍更廣，但精確度較差。具體問題具體分析，下面就來詳細了解一下三種相關性檢驗有什麼不同。

劃重點

1. Pearson相關係數

2. Spearman秩相關係數（例子）

3. Kendall秩相關係數

一

Pearson相關係數

Pearson相關係數，是度量兩個變數之間線性關係強度的統計量，記為r，計算公式為：

1.適用條件

服從正態分布的定距變數；

兩個數據序列的數據要一一對應，等間距等比例（觀測值是成對的，每對觀測值之間相互獨立）。數據序列通常來自對同一組樣本的多次測量或不同視角的測量。

極端值對積差相關係數的影響極大，因此要慎重考慮和處理，必要時可以對其進行剔出，或者加以變數變換，以避免因為一兩個數值導致出現錯誤的結論。

2.性質：

r的取值範圍在-1和+1之間，即-1≤r≤1。r大於0，表示正相關；r小於0，表示負相關；r=0表明x與y之間不存在線性相關關係。

r具有對稱性。x與y之間的相關係數和y與x之間的相關係數相等。

r數值的大小與x和y的原點及尺度無關。改變x和y的數據原點或計量尺度，並不改變r數值的大小。

r僅僅是x與y之間線性關係的度量，它不能用於描述非線性關係。當變數之間的非線性相關程度較強時，就可能會導致r=0，此時不能輕易得出兩個變數之間沒有關係的結論，而應結合散點圖做出合理解釋。

r雖然是兩個變數之間線性關係的度量，卻不一定意味著x與y一定有因果關係。

對於一個具體的r取值，根據經驗可將相關程度分為以下幾種情況：當r≥0.8時，可視為高度相關；0.5≤r＜0.8.可視為中度相關；0.3≤r＜0.5時，視為低度相關；當r＜0.3時，說明兩個變數之間的相關程度極弱，可視為不相關。（建立在顯著性檢驗的基礎之上才可以這樣解釋）

3.相關係數的檢驗

r是根據樣本數據計算出來的，它受到樣本波動的影響；能否根據樣本相關係數說明總體的相關程度，就需要考察樣本相關係數的可靠性，也就是顯著性檢驗。

相關係數的顯著性檢驗通常採用R.A.Fisher提出的t分布檢驗，該檢驗可以用於小樣本，也可用於大樣本。

原假設為變數之間不相關，如果統計量P＜α，就拒絕原假設，表明總體的兩個變數之間存在顯著的線性關係。

二

Spearman秩相關係數

Spearman秩相關係數，也稱等級相關係數，屬於非參數統計方法，記為rs。

當定距數據不滿足正態分布，不能使用皮爾遜相關分析，這時，可以在相關分析中引入秩，藉助秩實現相關性檢驗，即先分別計算兩個序列的秩，然後以秩代替原始數據，代入到皮爾遜相關係數公式中，得到斯皮爾曼相關係數公式：

1.適用條件

不服從雙變數正態分布的資料；

總體分布類型未知；

兩個數據序列的數據一一對應，等間距等比例。數據序列通常來自對同一組樣本的多次測量或不同視角的測量。

2.性質

與Pearson相關係數類似，Spearman秩相關係數的取值範圍也為[-1,1], 當檢驗概率小於0.05時，表示兩列數據之間存在相關性。

Spearman秩相關係數不僅可以直接用秩來計算，也可以將數值型數據轉化為秩來計算。

對於服從Pearson相關係數的數據亦可計算Spearman相關係數，但統計效能要低一些。

3.實例

Table1：為隨機森林挑選出的物種相對丰度表格

Table2：為樣本對應的環境因子

若想了解物種與物種間的相關性，則只使用Table1計算相關性矩陣，顏色表示相關性的正負及相對大小，「*」表示顯著性：

或用圓圈大小表示相關性的相對大小，顏色表示正負，空白為不顯著：

如果想了解物種與環境因子的相關性，則需要合併Table1和Table2：

三

Kendall秩相關係數

Kendall相關係數與Spearman秩相關係數一樣，也是對兩個順序變數之間相關程度的一種度量，屬於非參數統計方法，記為τ。

當既不滿足正態分布，也不是等間距的定距數據，而是不明分布的定序數據時，不能使用Pearson相關和Spearman相關。此時，在相關分析中引入「一致對」的概念，藉助「一致對」在「總對數」中的比例分析其相關性水平。

舉例說明：

設所觀察的一組樣本數據對為（x1,y1）,（x2, y2）,…,（xn,yn），將 x 的 n 個數據的秩按由小到大排列，y的n個數據的秩也相應地發生變動。比如，x和y的秩分別為：

x: 2 4 3 1

y: 3 4 1 2

將x的秩按由小到大排列後，x和y的秩則為下面的形式：

x: 1 2 3 4

y: 2 3 1 4

由於x的秩已按從小到大排列，因此x的觀察值每兩個之間都是一致對。再看y的情況，第一個秩為2，第二個秩為3，因為2小於3，是按自然順序增加的，因此這是一個一致對；再看2和1，由於1小於2，不是按自然順序增加排列，所以是一個非一致對。依次考察下去，凡是一致對記為+1，非一致對記為-1。考察結果如下表所示：

在x的秩按從小到大排列時，y的秩對的最大可能評分也應該是按從小到大排列的秩對的評分，也就是說，只有當y的秩對全部是一致對時，每一數對的秩均為+1,這時y的秩對的評分最大。這樣，在x和y的評秩完全一致的情況下，最大可能的評分總數應該是一個組合。比如在上例中是。若有n個觀察數對兩兩秩對之間評分,最大可能的總分為。用實際的評分與最大可能總分相比，就可以測定兩組秩之間的相關程度。

用U表示y的一致對數目，V表示y的非一致對數目，則一致對評分與最大可能總分之比為：