使用plink進行連鎖不平衡分析
歡迎關注"生信修鍊手冊"!
plink是進行連鎖不平衡分析的常用工具之一,需要兩個基本的輸入文件,後綴分別為ped和map。ped文件格式在之前的文章中已經詳細介紹過,這裡只介紹map文件。
map文件主要保存SNP位點的名稱和位置信息,內容如下
共4列,每一行代表一個SNP位點,第一列代表SNP位點所在染色體的名字,第二列代表SNP位點的ID,通常是編號,也可以是自定義的ID;第三列代表SNP位點的遺傳距離,如果沒有實際數值可以用0填充;第四列代表SNP位點在染色體上的位置。
plink 進行LD分析有以下兩種方式:
1. 分析指定的兩個SNP位點
命令如下
在log信息中,會輸出LD分析的結果
給出了R2和D』 兩個值,同時還給出了不同單倍型的頻率。
2. 對所有的SNP位點進行分析
命令如下:
會直接輸出所有LD分析的結果,而會根據R2值對結果進行過濾。在實際分析中,SNP位點個數是非常多的,如果不進行過濾,結果文件會非常的大。過濾的參數有以下幾種
默認值為10,這個參數限定了一個SNP位點最多和10個其他的SNP位點進行LD分析。
默認值為1Mb, 只對距離在1Mb之內的SNP位點進行分析。
這個參數只能和參數搭配使用,默認值為0.2, 對輸出結果進行過濾,只輸出R2大於該參數值的LD分析結果。
輸出文件為。這個文件給出了SNP位點間的R值或者R2值,示例如下
通過指定參數,也可以只分析某個SNP位點與其他位點的連鎖關係,用法如下
以上兩種方法更有優劣,第一種方法會給出D』和R2兩個值,第二種方法只會給出R值;第一種方法一次只能分析兩個SNP位點間的連鎖關係,而第二種方法一次可以分析多個SNP位點間的連鎖關係。
更多參數的用法請參考官方文檔
http://zzz.bwh.harvard.edu/plink/ld.shtml
TAG:生信修鍊手冊 |