當前位置:
首頁 > 最新 > 葉綠體和線粒體基因組的組裝研究

葉綠體和線粒體基因組的組裝研究

小基因組的重要意義

對於基因組組裝,我們再熟悉不過了,核基因組de novo已是經典,然而,線粒體和葉綠體小基因組的研究也不容小覷。由於葉綠體和線粒體基因組的高度保守性,它的遺傳形式多樣而以母系遺傳為主,在組織培養和體細胞雜交中具有穩定性強,單親遺傳的特點。對於研究葉綠體或線粒體基因組的突變或結構變異的信息挖掘,在研究植物進化,分類,遺傳多樣性等方面有重要的意義,對小基因組進行基因注釋,是探討植物光合作用機理,植物能量代謝,植物抗氧化及次生代謝的基礎。

前段時間,小編做了某作物的葉綠體和線粒體基因組的組裝,整理了一下拼接方法,分享給需要的小夥伴兒!

拼接方法基本簡介

線粒體和葉綠體基因組均屬於小基因組,動物線粒體一般為10~39kb,植物中線粒體大小差別較大,一般100kb以上。我們通過比對已經發表的近緣物種的線粒體基因組來獲得研究物種的測序reads,之後再利用常用的小基因組拼接軟體進行組裝,這裡小編推薦兩款組裝軟體。

第一款軟體,效果相比處理要好一些,而且簡單方便,從reads到組裝結果一鍵式完成。軟體名稱:ARC (Assembly by Reduced Complexity),網址:http://ibest.github.io/ARC/

這個軟體也是通過reads與近緣物種的線粒體序列比對來提取reads並組裝,但優化的地方在於,第一次組裝之後,使用組裝出來的序列替代了參考的線粒體序列,并迭代進行比對、提取、拼接等步驟,用以延伸每次組裝得到的結果,最終得到完整的序列:

安裝與運行

軟體為python語言編寫,下載後可以直接使用,運行命令也很簡單:

./bin/ARC -c config.txt > log.txt

只需給定配置文件,在配置文件中給定相應文件路徑和參數,就可以運行了。

第二款軟體,Velvet用於拼接短序列組裝,只需給定配置文件,在配置文件中給定相應文件路徑和參數,就可以運行了。

數據準備

合并兩個fastq文件,如果是fasta,則需將下面的代碼中fastq改為fasta

建立哈希索引

直接對fastq格式的原始文件進行處理,首先是用velveth命令建立hash表子集

輸入./velveth會出來使用幫助:

velveth Assem 31 -shortPaired -fasta interleaved.fna

說明:

# Assem為生成文件所在文件夾,31為設置的kmer,一般為奇數,默認的是31,(最大可設置127),-shortPaired雙末端模式

- Paired-end short reads (PE1和PE2是分開的)

velveth Assem 31 -shortPaired -fasta -separate left.fa right.fa

velveth Assem 31 -shortPaired -fasta -separate left.fa right.fa velvetg Assem -cov_cutoff 30 -ins_length 350 -ins_length_sd 100 -exp_cov auto -min_contig_lgth 500

說明:

#-ins_length為Insert size加上reads的長度,我前者為160,後者為91+91,所以後面的參數為350 ;默認的

#-ins_length_sd 100為什麼設置這兩個參數就有點不明白了,Assem注意和第一步建立的文件夾的對應

velvet拼接過程中主要的幾個需要調試的參數

主要有三個:Kmer值,exp_cov和cov_cutoff三個。本文分別設置不同的參數值,進行比較。

Kmer值是基於De Bruijn演算法的高通量讀段拼接軟體中最重要的一個參數,Kmer必須為奇數,在執行velveth時設置。在velvet的使用說明中,有一段關於Kmer設置的一般要求,如下:

Ck= C(L-K+1)/L

L表示讀段長度,K表示Kmer值,C表示鹼基的覆蓋深度,Ck表示kmer的覆蓋深度。L值已知,C值通過基因組規模和測序量來估計,當K值設定之後,可算得Ck值。根據經驗,Ck值應當大於10,才能較好地完成拼接,而當Ck值大於20時,就浪費了測序深度。Kmer值越大Ck值就越小。當測序深度加大的時候,Kmer值也可以設的更大,有利於拼接。這個公式只能確定Kmer的取值範圍,在此範圍內選擇採用哪個Kmer值,則需要進行Kmer參數值的調試。

在執行velvetg時,可設定exp_cov和cov_cutoff兩個選項。選項cov_cutoff用來過濾低覆蓋深度的contigs,選項exp_cov為預期的覆蓋深度。這兩個參數可設定具體的值,默認值為「auto」。當設為auto時,軟體在拼接時自動取值,如果數據的覆蓋比較均勻,設為auto,拼接結果會比較好;exp_cov設為auto時,cov_cutoff也將強製為auto,auto表示覆蓋深度的閾值為exp_cov的一半。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 百邁客雲 的精彩文章:

測序40年——漫談組裝
SLAF技術構建遺傳圖譜定位四倍體棉花單鈴重性狀
單分子測序技術助力提升玉米基因組

TAG:百邁客雲 |

您可能感興趣

植物減數分裂紡錘體組裝研究獲新進展
組裝式圓拱架立體栽培辣椒—絲瓜—蕹菜技術
中科院武漢病毒所曹晟組在桿狀病毒衣殼蛋白組裝體的結構及應用領域取得進展
石墨烯組裝體複合材料的應用
世界首個野生梨基因組圖譜組裝成功
饒子和/王祥喜研究團隊合作揭示皰疹病毒的組裝和穩定性機制
丁世家:用於超靈敏檢測融合基因的基於DNA自組裝水凝膠和鏈霉親和素包封的無酶無標記表面等離子體共振生物感測器
「體內自組裝」多肽藥物研究取得系列進展
會呼吸的木屋、木房子、木別墅——組裝式個性化製作
組裝二肽單晶誘導生物膜形成與拓展研究獲進展
組裝型的公司
白金工作室稻葉敦志稱下一代主機更類似於組裝遊戲PC 缺乏硬體創新
再生醫學裡程碑成果,扁蟲基因組高質量組裝序列公布
創維烏鎮破局:用新硬體擊敗組裝電視 讓經銷商變成合伙人
武漢病毒所在桿狀病毒衣殼蛋白組裝體的結構及應用方面獲進展
用於組裝大規模納米結構機器人系統、智能水凝膠機器人、虹膜識別技術、自組裝3D電池…
新突破!世界首個蚶科全基因組精細圖譜組裝完成
什麼是國產屏、組裝屏、原裝屏
蛋白基納米結構可控組裝研究方面取得進展
寨卡病毒粒子組裝模型被成功揭示,深入研究了NS2A蛋白的遺傳和生化特徵