當前位置:
首頁 > 最新 > 谷歌發布深度學習模型DeepVariant新版本:旨在提高基因組數據精確度

谷歌發布深度學習模型DeepVariant新版本:旨在提高基因組數據精確度

AiTechYun

編輯:chux

去年12月,谷歌發布了DeepVariant。這是一種深度學習模型,研究者訓練它分析基因序列,使其準確地識別其中的差異,這種差異就是所謂的變體,它讓我們每個人都作為獨一無二的個體存在著。我們在最初的文章里主要關注的問題是,DeepVariant如何將識別變體(variant calling)作為圖像分類問題來解決,並且得到結果能夠比以前的方法更精確。

今天,谷歌宣布推出DeepVariant v0.6,重點在於提高精確度。在這篇文章中,主要闡述了研究者如何訓練DeepVariant,如何通過將代表性數據添加到DeepVariant的訓練進程中,以提高DeepVariant的精確度,並將其應用於兩個常見的測序中——完整的外顯子組測序和聚合酶鏈式反應測序。

測序數據的多種類型

基因組測序方法取決於以下幾種因素:DNA樣本的類型(如血液或唾液),DNA的處理技術(如放大技術),用來進行數據測序的技術(例如,使用的儀器甚至可以是同一個製造商的不同設備),使用哪一部分基因組,使用多少基因組序列……這些差異導致測序數據類型繁多。

通常,識別變體工具已經調整了特定的數據類型,但在其他類型上表現較差。考慮到為新的數據類型調整識別變體,可能會花費大量時間,也會涉及到專門知識,為每個人定製不同的工具似乎並不可行。相對地,利用DeepVariant,我們可以提高新的數據類型的精確度,方法是在訓練過程中加入代表性數據,這樣也不會對整體表現造成負面影響。

識別變體的真值

深度學習模型依賴用於培訓和評估的高質量數據。在基因組學領域,由NIST發起的Genome in a Bottle (GIAB)財團生產的人類基因組,用於技術開發、評估和優化。使用GIAB標準基因組的好處是,它們的真實序列是已知的(至少在目前可能的範圍內)。為了實現這一目標,GIAB採用了單人的DNA,多次使用各種實驗室方法和測序技術(涉及很多數據類型)對其進行測序,並使用各種不同的識別變體工具分析數據結果。此外,為評估和判定差異進行大量研究,從而使每個基因組產生一個具有高信度的「真值集」。

DeepVariant的大多數訓練數據都出自GIAB HG001投放的第一批標準基因組。樣本來源於一個有北歐血統的女性,可從International HapMap Project獲得,對於識別常見的人類基因變異模式,這一項目是目前人類做出的規模最大的嘗試。因為從HG001獲取的DNA可商用而且特徵明顯,所以常被用作首批樣本,以測試新的測序技術和識別變體工具。通過使用HG001中的複製品和不同的數據類型,我們可以得到無數訓練實例,可用於幫助DeepVariant學習如何精確將不同的數據類型進行分類,甚至是推廣到前所未有的數據類型中。

v0.5版本中經過改良的外顯子組模型

在發布的v0.5版本中,制定了與標準兼容的訓練策略,暫時迴避了完備樣本HG002,以及任何來自染色體20的數據。HG002是GIAB投放的第二批標準基因組,提取自一個德系猶太種族的男性。這一樣本的性別和種族都與HG001不同,確保了DeepVariant在多樣化種群方面表現良好。此外,為測試準備的染色體20,使得對於任何包含真值的數據類型,用DeepVariant評估的精確度都可以得到保證。

v0.5版本中,我們還關注了外顯子組數據,它是直接為蛋白質合成指定遺傳密碼的基因組子集。外顯子組在整個人類基因組佔比不到1%,所以整個外顯子組測序(WES)的成本遠低於完整基因組測序(WGS)。外顯子組包含許多臨床意義上的變體,因此它對研究人員和臨床醫生都很有用。為了提高外顯子組的結果精確度,我們在DeepVariant的訓練數據中,加入了DNAnexus提供的各種WES數據類型。v0.5版本中的WES模型顯示,減少了43%的indel(插入-缺失)錯誤,同時減少了22%的單核苷酸多態性(SNP)錯誤。

DeepVariant所有版本的HG002外顯子組的錯誤總數,分別為indel錯誤(左)和SNP錯誤(右)。

錯誤可能是假陽性(FP),用黃色代表,抑或是假陰性(FN),用藍色代表。

精度最顯著的提高在v0.4和v0.5版本之間,可能是由於indel FPs的減少。

v0.6版本中,用PCR+數據改進完整基因組測序模型

DeepVariant最新的v0.6版本,致力於改進數據的精確度,並在測序前,通過聚合酶鏈式反應(PCR)放大DNA。PCR用來放大非常微小的DNA,既簡單、成本又低,畢竟在以前測序結果也被稱為陽性PCR(PCR+)測序數據。然而PCR可能會帶來偏差和錯誤,而不基於PCR(或PCR-free)的DNA製備方法也越來越普遍。在v0.6版本發布之前,DeepVariant的訓練數據都是清一色的PCR-free數據,而DeepVariant進行外部評估表現不佳時,PCR+是為數不多表現良好的數據類型。因此,在DeepVariant訓練數據中加入DNAnexus提供的PCR+實例,我們也能看出這一數據類型的精確度顯著提高,indel錯誤減少了60%。

DeepVariant v0.6版本顯示了PCR+數據的精確度提高,主要歸由於indel錯誤的減少。我們重新分析了兩個之前用在外部評估的PCR+樣本,包括左邊的DNAnexus和右邊的bcbio,兩圖顯示了indel精確度是如何隨著DeepVariant版本升級而提高的。

DeepVariant v0.6中,來自DNAnexus和bcbio的獨立評價仍然可用。他們的分析支持我們提高indel的精確度,還包括與其他識別變體工具進行比較。

總結

谷歌開源了DeepVariant,鼓勵合作,期望利用這項技術來解決現實世界的問題。隨著測序技術的發展創新,越來越多的臨床應用不斷湧現,DeepVariant也有更廣闊的發展空間,期待這一技術在未來能夠提供更為精確的結果。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AiTechYun 的精彩文章:

谷歌Tacotron進展:使用文字合成的語音更加自然
Fontcode演算法可以找出隱藏在正常文本中的秘密消息

TAG:AiTechYun |