當前位置:
首頁 > 最新 > plink PED 文件格式介紹

plink PED 文件格式介紹

歡迎關注"生信修鍊手冊"!

plink是進行全基因組關聯分析常用的軟體之一,該軟體需要兩種基本格式的輸入文件,和。本篇重點介紹一下格式。

對於格式而言,包含了以下幾種信息

家繫結構;

性別信息;

表型信息;

snp calling信息;

格式是一個純文本的文件,至少需要6列,每列有空格或者分隔。這6列

分別代表以下含義

Family ID

Individual ID

Paternal ID

Maternal ID

Sex

Phenotype

用來表示家族,同一個家族用同一個family ID表示;用來表示個體,和連起來必須能夠唯一表示每個樣本;表示父本ID, 表示母本ID, 通過以上4個屬性,可以完全表徵樣本的家繫結構信息。

表示性別, 代表male,代表female, 其他數字表示unknown。

代表表型,其中表型可以是離散型的(比如質量性狀),也可以是連續型的(比如數量性狀),plink會自動識別對應的類型。通過以上6個必須的欄位,可以完整的映射到某一性狀的家系圖上。

對於關聯分析而言,除了表型相關信息,還需要基因型信息。在格式的文件中,剩餘的列通常用來表示基因型信息。在文件中,每個snp位點的基因型需要兩列來表示,分別表示major allel 和 minor allel。在表示基因型時,既可以使用A,C,G,T字母的形式,也可以採用1,2數字編碼的形式。默認情況下,用來表示基因型的缺失。

一個文件的示例如下

在這個文件中,所有樣本之間相互獨立,沒有親緣關係,所以每個樣本有一個唯一的;對於樣本而言,只需要和兩個欄位的信息連起來,能夠唯一表示一個樣本即可,由於已經和樣本是一一對應關係了,所以這裡的統一用1表示。

由於沒有親緣關係,和也沒有了意義,取值全都為0; 性別全部為1,表明所有樣本都為男性;的取值有1和2兩種,是離散型的。最後的4列信息代表2個SNP位點的基因型信息,每兩列一個SNP位點。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 生信修鍊手冊 的精彩文章:

TAG:生信修鍊手冊 |