谷歌發布深度學習模型DeepVariant新版本：旨在提高基因組數據精確度

最新 04-24

AiTechYun

編輯：chux

去年12月，谷歌發布了DeepVariant。這是一種深度學習模型，研究者訓練它分析基因序列，使其準確地識別其中的差異，這種差異就是所謂的變體，它讓我們每個人都作為獨一無二的個體存在著。我們在最初的文章里主要關注的問題是，DeepVariant如何將識別變體（variant calling）作為圖像分類問題來解決，並且得到結果能夠比以前的方法更精確。

今天，谷歌宣布推出DeepVariant v0.6，重點在於提高精確度。在這篇文章中，主要闡述了研究者如何訓練DeepVariant，如何通過將代表性數據添加到DeepVariant的訓練進程中，以提高DeepVariant的精確度，並將其應用於兩個常見的測序中——完整的外顯子組測序和聚合酶鏈式反應測序。

測序數據的多種類型

基因組測序方法取決於以下幾種因素：DNA樣本的類型(如血液或唾液)，DNA的處理技術(如放大技術)，用來進行數據測序的技術(例如，使用的儀器甚至可以是同一個製造商的不同設備)，使用哪一部分基因組，使用多少基因組序列……這些差異導致測序數據類型繁多。

通常，識別變體工具已經調整了特定的數據類型，但在其他類型上表現較差。考慮到為新的數據類型調整識別變體，可能會花費大量時間，也會涉及到專門知識，為每個人定製不同的工具似乎並不可行。相對地，利用DeepVariant，我們可以提高新的數據類型的精確度，方法是在訓練過程中加入代表性數據，這樣也不會對整體表現造成負面影響。

識別變體的真值

深度學習模型依賴用於培訓和評估的高質量數據。在基因組學領域，由NIST發起的Genome in a Bottle (GIAB)財團生產的人類基因組，用於技術開發、評估和優化。使用GIAB標準基因組的好處是，它們的真實序列是已知的(至少在目前可能的範圍內)。為了實現這一目標，GIAB採用了單人的DNA，多次使用各種實驗室方法和測序技術(涉及很多數據類型)對其進行測序，並使用各種不同的識別變體工具分析數據結果。此外，為評估和判定差異進行大量研究，從而使每個基因組產生一個具有高信度的「真值集」。

DeepVariant的大多數訓練數據都出自GIAB HG001投放的第一批標準基因組。樣本來源於一個有北歐血統的女性，可從International HapMap Project獲得，對於識別常見的人類基因變異模式，這一項目是目前人類做出的規模最大的嘗試。因為從HG001獲取的DNA可商用而且特徵明顯，所以常被用作首批樣本，以測試新的測序技術和識別變體工具。通過使用HG001中的複製品和不同的數據類型，我們可以得到無數訓練實例，可用於幫助DeepVariant學習如何精確將不同的數據類型進行分類，甚至是推廣到前所未有的數據類型中。

v0.5版本中經過改良的外顯子組模型

在發布的v0.5版本中，制定了與標準兼容的訓練策略，暫時迴避了完備樣本HG002，以及任何來自染色體20的數據。HG002是GIAB投放的第二批標準基因組，提取自一個德系猶太種族的男性。這一樣本的性別和種族都與HG001不同，確保了DeepVariant在多樣化種群方面表現良好。此外，為測試準備的染色體20，使得對於任何包含真值的數據類型，用DeepVariant評估的精確度都可以得到保證。

v0.5版本中，我們還關注了外顯子組數據，它是直接為蛋白質合成指定遺傳密碼的基因組子集。外顯子組在整個人類基因組佔比不到1%，所以整個外顯子組測序(WES)的成本遠低於完整基因組測序(WGS)。外顯子組包含許多臨床意義上的變體，因此它對研究人員和臨床醫生都很有用。為了提高外顯子組的結果精確度，我們在DeepVariant的訓練數據中，加入了DNAnexus提供的各種WES數據類型。v0.5版本中的WES模型顯示，減少了43%的indel（插入-缺失）錯誤，同時減少了22%的單核苷酸多態性(SNP)錯誤。

DeepVariant所有版本的HG002外顯子組的錯誤總數，分別為indel錯誤(左)和SNP錯誤(右)。

錯誤可能是假陽性(FP)，用黃色代表，抑或是假陰性(FN)，用藍色代表。

精度最顯著的提高在v0.4和v0.5版本之間，可能是由於indel FPs的減少。

v0.6版本中，用PCR+數據改進完整基因組測序模型

DeepVariant最新的v0.6版本，致力於改進數據的精確度，並在測序前，通過聚合酶鏈式反應(PCR)放大DNA。PCR用來放大非常微小的DNA，既簡單、成本又低，畢竟在以前測序結果也被稱為陽性PCR(PCR+)測序數據。然而PCR可能會帶來偏差和錯誤，而不基於PCR（或PCR-free）的DNA製備方法也越來越普遍。在v0.6版本發布之前，DeepVariant的訓練數據都是清一色的PCR-free數據，而DeepVariant進行外部評估表現不佳時，PCR+是為數不多表現良好的數據類型。因此，在DeepVariant訓練數據中加入DNAnexus提供的PCR+實例，我們也能看出這一數據類型的精確度顯著提高，indel錯誤減少了60%。

DeepVariant v0.6版本顯示了PCR+數據的精確度提高，主要歸由於indel錯誤的減少。我們重新分析了兩個之前用在外部評估的PCR+樣本，包括左邊的DNAnexus和右邊的bcbio，兩圖顯示了indel精確度是如何隨著DeepVariant版本升級而提高的。

DeepVariant v0.6中，來自DNAnexus和bcbio的獨立評價仍然可用。他們的分析支持我們提高indel的精確度，還包括與其他識別變體工具進行比較。

總結

谷歌開源了DeepVariant，鼓勵合作，期望利用這項技術來解決現實世界的問題。隨著測序技術的發展創新，越來越多的臨床應用不斷湧現，DeepVariant也有更廣闊的發展空間，期待這一技術在未來能夠提供更為精確的結果。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AiTechYun 的精彩文章:

※谷歌Tacotron進展：使用文字合成的語音更加自然
※Fontcode演算法可以找出隱藏在正常文本中的秘密消息

TAG:AiTechYun |