plink PED 文件格式介紹
歡迎關注"生信修鍊手冊"!
plink是進行全基因組關聯分析常用的軟體之一,該軟體需要兩種基本格式的輸入文件,和。本篇重點介紹一下格式。
對於格式而言,包含了以下幾種信息
家繫結構;
性別信息;
表型信息;
snp calling信息;
格式是一個純文本的文件,至少需要6列,每列有空格或者分隔。這6列
分別代表以下含義
Family ID
Individual ID
Paternal ID
Maternal ID
Sex
Phenotype
用來表示家族,同一個家族用同一個family ID表示;用來表示個體,和連起來必須能夠唯一表示每個樣本;表示父本ID, 表示母本ID, 通過以上4個屬性,可以完全表徵樣本的家繫結構信息。
表示性別, 代表male,代表female, 其他數字表示unknown。
代表表型,其中表型可以是離散型的(比如質量性狀),也可以是連續型的(比如數量性狀),plink會自動識別對應的類型。通過以上6個必須的欄位,可以完整的映射到某一性狀的家系圖上。
對於關聯分析而言,除了表型相關信息,還需要基因型信息。在格式的文件中,剩餘的列通常用來表示基因型信息。在文件中,每個snp位點的基因型需要兩列來表示,分別表示major allel 和 minor allel。在表示基因型時,既可以使用A,C,G,T字母的形式,也可以採用1,2數字編碼的形式。默認情況下,用來表示基因型的缺失。
一個文件的示例如下
在這個文件中,所有樣本之間相互獨立,沒有親緣關係,所以每個樣本有一個唯一的;對於樣本而言,只需要和兩個欄位的信息連起來,能夠唯一表示一個樣本即可,由於已經和樣本是一一對應關係了,所以這裡的統一用1表示。
由於沒有親緣關係,和也沒有了意義,取值全都為0; 性別全部為1,表明所有樣本都為男性;的取值有1和2兩種,是離散型的。最後的4列信息代表2個SNP位點的基因型信息,每兩列一個SNP位點。
TAG:生信修鍊手冊 |