當前位置:
首頁 > 最新 > 基因組學-基因組的拼接實例

基因組學-基因組的拼接實例

細心的朋友已經發現了,我們一周每天的內容都是不同的,這是因為每天都有不同的小編給大家更新,每個小編都有不同的知識背景,這也方便我們能夠學到更多維度的生信知識,歡迎繼續關注!

另外告訴大家一個好消息,從這周開始,周末我們也會進行更新!是不是很爽!

今天恰好周五更新的小編出差了,今天我就插個隊。我們如約進行基因組拼接實例講解。

對不住了,公司銷售!

當然有了拼接好的基因組,我們還有基因預測,注釋等模塊等待更新,敬請期待!

讓我們開始吧!

基因組的拼接軟體較多:如:Newbler、Edena、SOAPdenovo、ALLPATHS-LG、MaSuRCA、Velvet等軟體。

我們今天跟大家分享華大基因研發的基因組拼接軟體SOAPdenovo,該工具除拼接以外,還可以進行SNP、SNV的挖掘,如需要請自行查看manual。

1. SOAPdenovo有什麼特點呢:

(1)基因組組裝的速度快;

(2)基因組組裝N50值較高;

(3)但基因組組裝錯誤率略高於其他軟體。

2. SOAPdenovo下載地址:

https://sourceforge.net/projects/soapdenovo2/files/SOAPdenovo2/bin/r240/SOAPdenovo2-bin-LINUX-generic-r240.tgz

下載軟體為二進位的版本,解壓完成以後,不用編譯可立即使用。

3. 組裝過程

SOAPdenovo軟體的命令有SOAPdenovo-127mer和SOAPdenovo-63mer兩個版本,其中,63mer版本支持的kmer最大值為63;127mer版本支持的最大kmer值為127。

SOAPdenovo其實是一個工具集,包含pregraph、sparse_pregraph、contig、map、scaffold和all共6個工具,前五個工具集分別進行基因組de bruijn圖的構建、contig構建、reads比對和scaffold連接等基因組組裝步驟。而all可以一次性的完成上述五個工具包的所有工作。

使用SOAPdenovo軟體組裝基因組之前,需要建立一個配置文件,配置文件中包括數據的特性、reads文件的路徑等信息。

配置文件各個參數,vi打開參數文件(config.txt)之後,會有以下幾個參數需要設置:

max_rd_len

#最大的reads讀長,該值一般設置比最大長度稍小;

[LIB]

#文庫信息以此開頭

avg_ins

#文庫平均插入長度,測序文庫長度,諮詢公司或者查看測序報告。

reverse_seq

#序列是否需要反轉,由於大於等於2k的文庫採用了環化,所以文庫大於等於2k的需要反轉,大於等於2k文庫設置為1,小文庫設置為;

asm_flags

#這一文庫的數據用於那一過程1(only contig assembly), 2 (only scaffold assembly),3(both contig and scaffold assembly), or 4 (only gap closure).

rank

#rank該值取整數,決定了reads用於構建scaffold的次序,值越低,數據越優先用於構建scaffold。一般將短插入片段設為1;2k設為2;5k設為3;10k設為4。

q1=/path to your data/R1.fastq

#為fastq reads1文件

q2=/path to your data/R2.fastq

#為fastq reads2文件

f1=/path to your data/.R1.fasta

f2=/path to your data/.R2.fasta

#為fasta文件

q=/path to your data/1.fq

#單向測序得到的fastq格式的文件;

f=/path to your data/2.fa

#單向測序得到的fasta格式的文件;可是是三代測序或者454的測序結果;

配置文件示例(配置文件命名為config.txt):

max_rd_len=90

[LIB]

avg_ins=350

reverse_seq=0

asm_flags=3

rank=1

q1=/path to your data.R1.fastq

q2=/path to your data.R2.fastq

[LIB]

avg_ins=2000

reverse_seq=1

asm_flags=2

rank=2

q1=/path to your data.R1.fastq

q2=/path to your data.R2.fastq

#如果我們還有其他文庫,可以繼續添加,每個[LIB]是一個模塊

SOAPdenovo拼接命令:

SOAPdenovo-63mer all -s config.txt -p 10 -o result -K 51 -R 2>log.txt &

#當然該命令是通過測試不同的Kmer後選擇的最佳Kmer值,一般拿到原始數據之後,我們會對數據進行不同Kmer的測試,選擇最佳的Kmer.

######注意事項

當測序reads長度較長時,選擇較大的kmer值能獲得較好的組裝結果;一般情況下,kmer值為reads長度的55%-85%能得到較好的組裝結果。

-s:配置文件的路徑;

-o:輸出文件的前綴;

-p:線程數;

-K:kmer值;

-R:resolve repeats by reads.一般建議加上此參數。

由於Kmer值對基因組的組裝影響較大,建議選擇不同的Kmer值進行拼接,取最優結果。

拼接結果為:

*.contig:conting sequences without using mate pairinformation.

*.scafSeq:scaffold sequences.

4. 基因組補洞:

使用GapCloser進行補洞,隨SOAPdenovo一起發布。

軟體下載:

https://sourceforge.net/projects/soapdenovo2/files/GapCloser/bin/r6/GapCloser-bin-v1.12-r6.tgz

安裝方法同上;

軟體使用:GapCloser -a *.scafSeq -bconfig.txt -o gapcloser.fasta -t 4

-a:輸入基因組序列的fasta文件,即為上一步得到的序列。

-b:SOPAdenovo的配置文件;

-o:輸出文件的路徑;

-t:線程數.

GapCloser軟體的輸出信息為:

gapcloser.fa:補洞完畢後的基因組序列文件;

######注意事項

補洞程序只能運行一次,一定要避免運行多次,切記!

得到的序列即為拼接好的細菌基因組。

參考資料:

(1)NGS生物信息分析v4.2;

(2)Beginner』s guide tocomparative bacterial genome analysis using next-generation sequence data;

(3)?SOAPdenovo2: an empirically improvedmemory-efficient short-read de novo assembler.

什麼?流程給了,沒有數據,好辦,我從NCBI幫大家找了一個大腸桿菌的基因組測序數據,供大家練習,我看了一下都是paired數據。

不同文庫序列號:

3. 插入片段 為2 kb:SRX1327054

4. 插入片段 為180 bp: SRX1320315

如何下載:

教大家一招:使用Windonws 系統下載NCBI SRA數據,利用CMD終端,前提是裝一個SRAtool到自己電腦:

Windows系統直接調用:

下載命令:

start /b D:iosoftsratoolkit.2.8.2-1-win64sratoolkit.2.8.2-1-win64infastq-dump.exeSRX1295865

下載後利用SRAtool轉換一下格式。

命令:

fastq-dump --split-files *.sra

強調一下:avg_ins 參數表示文庫插入片段大小。

大腸桿菌基因組參考文獻:

Zhang Y C, Yan Z, Zhu B R, et al. Genome sequences of two closely related strains of Escherichia coli K-12 GM4792[J]. Standards in Genomic Sciences, 2015, 10(1):125.

當然細菌的拼接速度那是杠杠的,對於植物、動物來講,流程是一樣的!

如果覺得我們的公眾號有用,請點點手指宣傳一下我們的公眾號。

你們的支持將是我們不斷更新的動力!

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 生信百科 的精彩文章:

TAG:生信百科 |

您可能感興趣

宏基因組學基本介紹
生命的基因組
基因系列:基因重組的那些事兒
華大智造攜手基因組數據平台微基因WeGene,啟動「人人基因組時代」
科學家通過基因組編輯從DNA中切除主要的心臟病風險基因座
深度學習+基因組學:破譯人類 30 億鹼基對
深度學習 + 基因組學:破譯人類 30 億鹼基對
科學家將人類大腦基因編輯入猴子基因組中
科學家實現用USB設備對人類基因組測序
科學家破譯藍鯨基因組
科學家破譯構樹基因組
基因「魔剪」成功滅活HIV基因
絕對精確地修飾人類基因組中的單個DNA鹼基,日本開發新型基因組編輯技術
美國啟動基因組編輯研究項目 基因測序板塊或迎機遇
基因和轉基因恐慌
人類基因與動物基因結合在一起的8個雜交實驗
美國農業部表示不會基因編輯作物,基因編輯和轉基因有什麼區別?
科學家改進基因編輯技術CRISPR 有望加速細胞基因組的編輯
全基因組水平基因分型方法
基因編輯嬰兒誕生後 國際人類基因組編輯峰會炸鍋了