當前位置:
首頁 > 最新 > 測序40年——漫談組裝

測序40年——漫談組裝

從1977年Sanger發明「雙脫氧鏈終止法」DNA測序技術起,基因組神秘的面紗一點一點的被揭露,從小至幾千鹼基的噬菌體基因組到數百萬鹼基的細菌基因組,再到三十億鹼基的人類基因組,每一步都值得記錄在人類探索自然、認識自身的篇章中。而這些成果背後的重要一環——基因組組裝,無疑是一個在研究中足夠」美」的問題:既足夠簡明,可用短短的一段話來描述;又足夠深刻,值得數十年的持續研究。小編今天和大家分享基因組組裝的歷史以及前沿的發展。

Part 1.白雲生處

上面是計算機學家Staden關於序列拼接的描述,從中可以引申出我們如今經常使用的幾個術語:reads/overlap/contig。對於序列拼接的概念Staden進行了簡明的定義:通過讀取片段(reads)間的連接關係(overlap)構建出更長的連續性片段(contig)。

更進一步的組裝研究中,序列拼接問題被轉化為圖論中的路徑尋找問題:以點(node)代表測序序列,以邊(edge)代表連接關係,以路徑(path)代表的圖上點的定向行走(walk)。這裡面,最有代表性的兩種構圖方式即string圖和de Brujin圖。下面奉上兩張小編收藏多年的圖,非常好的闡述了string圖和de Brujin圖在基因組組裝中的應用原理。

圖1. Strings Graph in genome assembly[2]

圖2. De Brujin Graph in genome assembly[3]

Part 2.一往而深

提起基因組,最廣為人知的應該是人類基因組計劃了,2001年公布的人類基因組是這一計劃的里程碑事件。其中,大放光彩的Celera Assembler也成為基因組組裝的」初代機「[4],whole genome shotgun的測序策略結合Overlap Layout Consensus的組裝策略,攻克了基因組學研究上的第一座高峰。

但是一代測序由於高昂的測序成本以及較低的測序通量,限制了其在更多、更大規模的基因組學研究中的應用。隨著二代高通量測序的應運而生,全基因組測序才成為科研人員廣泛使用的工具。以2005年出現的454測序儀和2008年出現的illumina測序儀為代表,短讀長、高通量的測序數據成為主流。而對於基因組組裝而言,與之而來的卻是短至幾十鹼基的測序片段帶來的拼接困境。

為此,研究人員發明了不同的文庫構建方法,以及改變了序列拼接的演算法。高深度+多文庫的雙端測序策略結合de Brujin圖的組裝策略,成為新一代的組裝標杆。在這一風起雲湧的時代,華大基因以其SOAPdenovo[5],以快打慢,打下了一片大大的江山(大霧)。

所謂一代版本一代神,雖然通過二代測序繪製了多物種的基因組草圖,但整體的連續性和完整性上仍存在較大不足。隨著三代單分子測序技術的出現,又再次煥發了OLC組裝策略的新春。基於Celera Assembler,研究人員適應三代測序數據形成了Hierarchical Genome Assembly Process(HGAP)的先糾錯再組裝的策略[6]。而二代測序並沒有因此退出組裝舞台,採用巧妙的文庫構建方法如全基因組染色體構象捕獲測序技術(Hi-C)、在DNA片段上加入高通量的barcode標籤測序技術(10X)等,能夠進一步對基因組進行完善升級,甚至使組裝結果達到染色體水平。

說起來,小編最初接觸組裝時深入研究的就是Celera Assembler,當時還是三代測序出現之初的7.0版本,見證了諸多版本的更新,不得不說,開發人員確實是一往而深(大霧),當為吾輩楷模。

Part 3.滄海雲帆

組裝的終極目標是得到一個沒有間隙(gap)的、單倍體精度的組裝結果,但是目前為止,還沒有一個高等動植物的基因組實現這樣的目標。即使是研究最完善的人類基因組,目前仍存在800餘個gaps。但是這個目標的實現距離我們已經是觸目可及了:測序技術不斷發展,一代、二代、三代、光學等數據優勢互補,使組裝如虎添翼;建庫方法不斷改進,Hi-C、10X等方法畫龍點睛,助組裝錦上添花。

圖3. 測序組裝策略[7]

如果問小編,組裝的未來是什麼呢?小編最想看到的是沒有組裝!一條DNA從頭測到尾,0 gap,不組裝,測出即用。有可能實現嗎?讓我們一起拭目以待吧。

參考文獻

1. Adam M. Phillippy. New advances in sequence assembly.

2. Eugene W. Myers. The fragment assembly string graph.

3. Phillip Compeau. How to apply de Bruijn graphs to genome assembly.

4. Venter et al. The Sequence of the Human Genome.

5. Luo R, Liu B, Xie Y, et al. SOAPdenovo2: an empirically improved memory-efficient short-read de novo assembler.

6. Chin CS, Alexander DH, Marks P, et al. Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data.

7. Seo J-S, et al. De novo assembly and phasing of a Korean human genome.


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 百邁客雲 的精彩文章:

SLAF技術構建遺傳圖譜定位四倍體棉花單鈴重性狀
單分子測序技術助力提升玉米基因組
PNAS解密煙草尼古丁練成之謎
二代+三代+光學的文章又雙叒發表啦
純三代向日葵基因組登上Nature

TAG:百邁客雲 |

您可能感興趣

科學家從14000年前的狼組織中恢復RNA並測序
基因測序行業市場規模預測:2020年基因測序市場規模將突破150億
2018年全球基因測序儀市場規模預測:市場規模將近35億美元
2017單細胞測序重點事件盤點TOP10!
2019年中國基因測序產業全景圖譜
香港基因組計劃公布:擬對20000名患者進行基因測序和分析!
2018年基因測序行業市場前景研究報告
10000多個細胞單獨測序!人類最精細肝臟圖譜問世
平均年齡27歲的浙大團隊自主研發單細胞測序平台
地球生物基因組計劃啟動 斥資47億美元測序150萬物種
3000份水稻重測序為「geng」稻正名
盤點轉錄組測序問題Top10
年薪27-35萬,植物表觀/組學大數據/單細胞測序技術開發等方向
華大智造推基因測序儀1天完成60例全基因組測序
"1000種菌物基因組測序"有突破 4種松露基因組公布
全基因組測序研究發現老虎確實是6種,分化始於11萬年前
測序史里程碑:科學家首次從 7000 年的牙齒中獲得乙肝病毒DNA
將測序150萬物種,地球生物基因組計劃啟動
華大基因註銷BGISEQ100/1000基因測序儀及配套NIPT試劑盒背後的思考
人類細胞圖譜計劃邁出第一步:25萬個細胞完成測序