當前位置:
首頁 > 最新 > 突破黑暗——長片段測序技術的應用優勢及其生物信息學演算法

突破黑暗——長片段測序技術的應用優勢及其生物信息學演算法

長讀長測序和遠距離映射技術的發展促進了物種參考基因組質量的提高,同時也為轉錄組學和表觀遺傳學研究提供了新的方法,使複雜結構變異鑒定成為可能。與此同時我們也需要開發新的生物信息學方法,以期達到對測序數據的高效利用。近期在Nature Reviews上發表的一篇綜述文章討論了當下流行的幾種基因組學研究方法的主要應用方向,並重點關注當前適用的一些生物信息學分析工具[1]。

二十世紀中後期,高通量的二代測序技術的發展降低了測序費用,實現了人們對基因組多樣性、病原體變異及轉錄組、表觀組和基因調控等的進一步研究。但是二代測序的短讀長劣勢,也限制了其對基因組中的重複序列和複雜結構變異等的鑒定。同時,文庫構建過程中人為引入的錯誤也是二代測序技術面臨的一大問題。

新近發展起來的基因組學技術如長讀長測序技術PacBio SMRT和Oxford Nanopore(平均讀長超過10kb,最長可達1Mb)、長片段測序技術Bionano、Hi-C及10X Genomics技術等可解決複雜基因組中的重複序列、微衛星序列及其他複雜的結構變異等問題。Table 1列舉了這些新技術的主要應用方向。

新的數據類型催生了新的適用於其的生物信息學演算法,文章中列舉了基於這些新基因組學數據的大量實用分析軟體。當前,新的生物信息分析工具已經結合新技術在很大程度上提高了我們對基因組的認識:

>>>>

基因組de novo組裝

複雜重複片段、高雜合、測序錯誤、覆蓋不足或偏向性等問題是基因組組裝中的重難點,其中,重複片段是最難克服的一環。基於二代短讀長測序極有可能會導致拼接錯誤。基因組de novo組裝是長讀長測序的一個重要應用方向——它們解決了基於二代短讀長技術所不能解決的複雜重複片段及偏向性等問題。同時結合Bionano光學圖譜技術等可進一步提高基因組組裝質量。

>>>>

染色體scaffolding和空白填補

新技術的加入填補了許多基於一代或二代測序技術得出的參考基因組中的許多空白(如玉米、果蠅和蚊子基因組等),並進行糾錯,獲得了更為完善的物種基因組。與contig不同,scaffold序列含N鹼基,如何確定contig的正確順序和方向是scaffolding的難點。使用染色體構象捕獲技術(Hi-C)、10X Genomics技術及光學圖譜技術(Bionano)可以有效地輔助構建scaffold。例如,山羊和人的基因組組裝就結合了長讀長測序技術和Hi-C技術,contig N50分別達到了18.7 Mb和26.8 Mb,scaffold N50分別為87Mb和60.0Mb。

Fig.1 PacBio+Bionano組裝結果與參考序列hg19比較

[2]

>>>>

複雜結構變異鑒定及分析

染色體結構變異(SVs)包括缺失、插入、重複、倒位和轉座幾種類型,變異區段通常大於50bp。SVs與人類健康和疾病有密切關係。過去的SVs分析通常基於短讀長的測序技術,然而由於讀長限制,二代測序技術對SVs的鑒定存在較高的錯誤率,且靈敏度較低。可喜的是,新一代的長片段測序技術為SVs的鑒定提供了新的可行性方法——與二代技術相比具更高的靈敏度和更低的錯誤率。

Fig.2基於Illumina、PacBio和Oxford Nanopore的測序數據中的結構變異分析的比較

>>>>

單倍型及等位基因特異性分析

許多真核生物,包括高等動植物,其基因組往往含有不只一個拷貝的染色體組。鑒別母本和父本的基因型有利於區分複合雜合子和半基因突變,以及等位基因特異性表達等。使用測序技術直接獲取個體的單倍體信息具有很大的研究價值。如Fig.3所示,當測序reads足夠長,即能夠跨越雜合子變異區而實現對單倍體的有效phasing。但實際上通常由於讀長限制、測序錯誤及測序覆蓋深度的波動導致變異的錯誤引入和真實變異的缺失。

Fig.3長reads對單倍體的phased示意圖

通過短讀長測序技術獲得的Phased block N50基本在1kb左右,而經長讀長的PacBio和Oxford Nanopore測序獲得的Phased block N50可達到100kb~500kb;由10X Genomics技術獲得的Phased block N50已超過10Mb;基於Hi-C的長距離測序技術理論上甚至可以Phased到整個染色體——這些長片段測序技術的發展促進了單倍型的鑒定和分析。

>>>>

Isoform鑒定及基因定量

真核生物中的可變剪接是增加蛋白質多樣性的重要機制。在果蠅中,性別特異性基因dsx的不同的剪接形式甚至決定了果蠅的性別;而在人體內,據估計有95%的多外顯子基因都表現出不同的可變剪接形式,以此構成了人體中複雜的轉錄本。

RNA-Seq技術雖然可以實現對轉錄本的表達定量,但由於其讀長限制,無法準確解析真核生物中複雜的Isoform結構。而三代長讀長測序技術——PacBio和Oxford Nanopore測序技術可以顯著地提升對Isoform結構的鑒定。無論是cDNA測序還是direct RNA測序,都可以直接得到轉錄本全長,直觀地展示轉錄本結構。

Fig.4長讀長測序發現的新的Isoform類型示例

>>>>

表觀修飾的直接檢測

表觀修飾是生物體基因表達調控機制中的重要一環,長片段測序技術實現了對錶觀修飾尤其是甲基化修飾的直接檢測分析。目前研究較為廣泛的甲基化修飾機制主要是6mA及5mC。先前對5mC的主要檢測方法是基於短讀長的亞硫酸氫鹽測序法,該方法具有較高的偏好性。而長讀長的PacBio和Oxford Nanopore測序技術可以直接對天然DNA進行測序,減少了人為引入的錯誤因素,更真實地還原DNA鏈上的甲基化修飾現象。

Fig.5單分子測序法檢測甲基化核苷酸。(A)基於PacBio Sequel的甲基化修飾檢測原理圖;(B)基於Oxford Nanopore甲基化修飾檢測原理圖

基於PacBio的 BaseMods軟體根據測序過程中聚合酶引入核苷酸的速度——脈衝間隔的持續時間(IPD)來判斷是否存在甲基化修飾(Fig. 5Aa、Ab)。Nanopolish和SignalAlign則是基於Oxford Nanopore的甲基化檢測軟體,通過分析非甲基化和甲基化核苷酸引起的電流信號變化來判斷發生甲基化修飾與否(Fig.5 B),隨後,利用隱馬可夫模型(HMM)分析該修飾是發生在胞嘧啶還是腺嘌呤上。此外,最新的研究表明Oxford Nanopore技術甚至可以直接檢測RNA分子上的甲基化修飾。

多組學技術結合對於結果分析更有利,這也就意味著我們需要更加靈活的生物信息分析工具。文章還指出了這些長片段測序技術在應用過程中所面臨的一些生物信息學分析挑戰(Table 2)。

新興的長片段測序技術和映射技術結合適當的生物信息學演算法,將在很大程度上提高基因組、轉錄組以及表觀組的數據質量,為人們提供更全面的基因組學信息,有望更完整、更準確地展現基因形式,實現對基因調控區域及其他重要元件的準確識別,並提高對等位基因特異性的鑒定,在科研及臨床醫學領域都具有不可估量的應用前景。

武漢未來組擁有PacBio Sequel、Oxford Nanopore、Bionano光學圖譜及Hi-C染色體構象捕獲等技術和平台,擁有豐富的三代測序項目經驗,旨在為廣大合作夥伴提供優質、快捷的基因組轉錄組測序組裝分析服務。

研究內容博大精深,更多詳情請參見文獻原文?

參考文獻

[1] Sedlazeck F J, Lee H, Darby C A, et al. Piercing the dark matter:bioinformatics of long-range sequencing and mapping[J]. Nature ReviewsGenetics, 2018: 1.

[2] Pendleton M, Sebra R, Pang A W C,et al. Assembly and diploid architecture of an individual human genome via single-molecule technologies[J]. Nature Methods, 2015, 12(8):780.

圖片來源於網路|侵刪

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Nextomics 的精彩文章:

NanoMod 發布,適配於納米孔測序數據的鹼基修飾檢測工具

TAG:Nextomics |