當前位置:
首頁 > 知識 > 乾貨∣如何得到染色體級別的植物基因組序列?

乾貨∣如何得到染色體級別的植物基因組序列?

植物基因組通常具有較高的重複序列,且很多為多倍體,因此組裝植物基因組具有一定的挑戰性。雙子葉模式植物擬南芥、單子葉模式植物水稻基因組序列分別在2000年、2005年公布,它們都是基於BAC克隆及sanger法測序的方法獲得的,至今在植物基因組序列中其質量依然是最好的。

二代測序技術的出現及發展,極大地加快了植物基因組的研究進程,已經有超過200種植物獲得了基因組序列,但是由於二代測序讀長短,大部分的基因組組裝結果都不高,含有數千個scaffolds;雖然基因區相對完整,但是富含轉座元件的區域都裝得比較碎,且明顯低估了這些區域的比例,僅有少部分組裝到了染色體水平。

近年來,隨著三代PacBio、Oxford Nanopore測序技術的發展,可以獲得較長的DNA片段,採用一定的組裝軟體,較為容易獲得高質量的組裝結果,尤其是在提高序列的完整性及重複序列組裝方面有了很大的改善。不過到目前為止,依然只有少數植物基因組組裝的完整性較好,contig N50>5Mb的只有6個;另外即使是基於長讀長reads得到較長的contigN50(>1Mb),要想獲得染色體水平的序列依然是不太容易的。

下面,小編通過Nature Plant一篇文獻「Chromosome-scale assemblies of plant genomes using nanopore long reads and optical maps」了解下如何通過採用三代測序加上optical maps、Illumina二代數據及遺傳圖譜的策略獲得染色體級別的植物基因組序列吧。

組裝結果

文章研究了三個物種,分別為雙子葉芸薹屬的B. rapa(yellow sarson,Z1),B.oleracea(broccoli, HDEM)及單子葉芭蕉屬的Musa schizocarpa(banana),這3個物種B.rapa Chiifu、B. oleracea To1000、Musa acuminate Pahang-HD曾採用short-reads策略獲得了基因組序列,不過序列多為片段化(contig N50

文章中,B.rapa(Z1)、B.oleracea(broccoli, HDEM)、

M.schizocarpa分別用MinION測序獲得了79X、32X、44X的數據,基於這些long-reads進行組裝,得到了少於1000條contigs,contig N50在3.8到7.3Mb之間。再結合optical maps及Illumina short reads進行組裝,最終contig N50在5.5到9.5Mb之間,scaffold N50在15.4到36.8Mb之間。1/4的染色體是單個scaffold,66%的染色體由1個或2個scaffolds組成,足見組裝質量是相當好的。

本次組裝contig N50與之前相比,提升了100倍和450倍;從注釋結果來看,B. rapa,B. oleracea和M. schizocarpa分別注釋出46,721,61,279,32,809個基因,與之前發表的結果相似。下表是本次組裝結果與以往公布結果的詳細比較。

long read提升轉座子富集區域的組裝結果

值得一提的是,雖然注釋的功能編碼基因個數與之前發表的結果較一致,但是採用長片段測序明顯提升了重複序列的組裝結果,檢測到的重複序列比例較高,且轉座元件的平均長度要長;而且通常在轉座子富集區域的基因難以定位到染色體上,但是本研究組裝中能將超過98%的基因錨定到染色體上。由此可見,長reads對於提升轉座元件富集區域的組裝質量是非常關鍵的。

同時分析了FLC基因的拷貝數(該基因與春化及開花時間有關,該基因家族的拷貝數變化能夠影響開花時間),在B.oleracea(broccoli, HDEM)和B.rapa Z1中分別發現了7個和4個FLC基因。表明長讀長更有利於重複區域的組裝。

抗病基因R-genes一般是成簇出現的,較難正確地組裝;theM. acuminata和theM. schizocarpa基因組中3個同源R-gene簇中不確定鹼基的比例分別為6.5%和0%,再次顯示了長讀長對複雜區域組裝的重要性。

進一步對199份B.rapa和119份B.oleracea材料進行了重測序,將測序結果與本次組裝的序列及之前的序列進行比對,發現除了Chinese cabbage,Chinese kale外,其它的與本次組裝的參考序列比對率更高;但是uniquely mapped reads的比例要低,進一步說明新組裝的序列重複區域組裝的效果更好,新組裝的序列更適合在後續芸薹屬重測序中作為參考序列。

Nanopore數據、PacBio數據組裝結果比較

PacBio測序、Nanopore測序都能獲得長的reads,這兩種測序技術對組裝有何影響呢?文章比較了用PacBio測序的6個物種與本文的3個物種之間的組裝結果(基因組大小在130-630Mb之間),發現使用ONT獲得的大於50kb的reads比例更高;而PacBio的測序深度更高一些(在125X-283X之間),表明PacBio需要更高的測序深度以獲得足夠的長reads來提升組裝的連續性。在這9個物種中,連續性第二好的,長讀長reads的深度只有36X,但是reads長度是最長的,說明相比於測序深度,更長的reads對提升組裝結果更有效;30X的long reads能夠滿足組裝的需求。

不過,小編認為這裡的比較如果在同一物種上進行平行比較會更有說服力,不過不管怎樣,從文章的比較結果來看,reads長度是決定組裝結果好壞的關鍵因素。

隨著Nanopore、PacBio測序技術的發展、升級及各種新組裝軟體的出現,必定會在極大降低研究費用的同時大大提升基因組組裝效果,那些以往難以取得較好結果的複雜基因組,將會迎來研究契機,當然,那些相對簡單的基因組組裝結果也會更好。

微分基因通過搭建世界領先的高通量測序平台、基因晶元平台、大數據分析平台,在全國範圍內與眾多學術機構、研發企業以及健康管理平台建立了深入的合作關係,為一系列基因組科學研究、健康管理項目等提供專業基因測序技術服務。

如果您有物種想進行基因組測序,現在可以準備起來啦。

參考文獻:

1.Arabidopsis Genome Initiative Analysis of the genome sequence of the flowering plant Arabidopsis thaliana. Nature 408, 796–815 (2000).

2.International Rice Genome Sequencing Project The map-based sequence of the rice genome. Nature 436, 793–800 (2005).

3.Du, H. et al. Sequencing and de novo assembly of a near complete indica rice genome. Nat. Commun. 8, 15324 (2017).

4.Edger, P. P. et al. Single-molecule sequencing and optical mapping yields an improved genome of woodland strawberry (Fragaria vesca) with chromosome-scale contiguity. Gigascience 7, 1–7 (2018).

5.Dassanayake, M. et al. The genome of the extremophile crucifer The llungiella parvula. Nat. Genet. 43, 913–918 (2011).

6.International Brachypodium Initiative Genome sequencing and analysis of the model grass Brachypodium distachyon. Nature 463,763-768(2010)

7.Raymond, O. et al. The Rosa genome provides new insights into the domestication of modern roses. Nat. Genet. 50, 772–777 (2018).

8.Caroline B. et al. Chromosome-scale assemblies of plant genomes using nanopore long reads and optical maps. Nature Plant. 4(11):879–887 (2018).

微分基因為國家大基因中心「基因檢測平台」運營方,專註於高通量測序技術,公司憑藉國際領先的高通量測序平台,依託獨具優勢的高通量基因測序和大數據挖掘技術,為各大高校、醫院、科研單位以及第三方健康管理服務平台,提供專業的基因檢測和數據分析解讀服務。2017年,微分基因在國家大基因中心建成2133平方米的潔凈分子生物實驗室,公司科研團隊匯聚了一批國內外優秀的基因組學實驗和生物信息分析研究人員。

科技服務部依託公司先進的自動化建庫儀、高通量測序儀等實驗設備,提供多種測序服務;憑藉強大的科研團隊,為高校、科研院所等研究單位提供領先的生物信息分析服務。主營業務包括DNA測序、RNA測序、表觀組學測序、單細胞測序、ICELL8單細胞表達譜測序、晶元服務、三代全長轉錄組測序等。

健康|醫療|基因|科普

微分基因科技服務

記得這是一個有溫度的公眾號


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 微分基因 的精彩文章:

TAG:微分基因 |