基因組學-基因組的拼接實例
細心的朋友已經發現了,我們一周每天的內容都是不同的,這是因為每天都有不同的小編給大家更新,每個小編都有不同的知識背景,這也方便我們能夠學到更多維度的生信知識,歡迎繼續關注!
另外告訴大家一個好消息,從這周開始,周末我們也會進行更新!是不是很爽!
今天恰好周五更新的小編出差了,今天我就插個隊。我們如約進行基因組拼接實例講解。
對不住了,公司銷售!
當然有了拼接好的基因組,我們還有基因預測,注釋等模塊等待更新,敬請期待!
讓我們開始吧!
基因組的拼接軟體較多:如:Newbler、Edena、SOAPdenovo、ALLPATHS-LG、MaSuRCA、Velvet等軟體。
我們今天跟大家分享華大基因研發的基因組拼接軟體SOAPdenovo,該工具除拼接以外,還可以進行SNP、SNV的挖掘,如需要請自行查看manual。
1. SOAPdenovo有什麼特點呢:
(1)基因組組裝的速度快;
(2)基因組組裝N50值較高;
(3)但基因組組裝錯誤率略高於其他軟體。
2. SOAPdenovo下載地址:
https://sourceforge.net/projects/soapdenovo2/files/SOAPdenovo2/bin/r240/SOAPdenovo2-bin-LINUX-generic-r240.tgz
下載軟體為二進位的版本,解壓完成以後,不用編譯可立即使用。
3. 組裝過程
SOAPdenovo軟體的命令有SOAPdenovo-127mer和SOAPdenovo-63mer兩個版本,其中,63mer版本支持的kmer最大值為63;127mer版本支持的最大kmer值為127。
SOAPdenovo其實是一個工具集,包含pregraph、sparse_pregraph、contig、map、scaffold和all共6個工具,前五個工具集分別進行基因組de bruijn圖的構建、contig構建、reads比對和scaffold連接等基因組組裝步驟。而all可以一次性的完成上述五個工具包的所有工作。
使用SOAPdenovo軟體組裝基因組之前,需要建立一個配置文件,配置文件中包括數據的特性、reads文件的路徑等信息。
配置文件各個參數,vi打開參數文件(config.txt)之後,會有以下幾個參數需要設置:
max_rd_len
#最大的reads讀長,該值一般設置比最大長度稍小;
[LIB]
#文庫信息以此開頭
avg_ins
#文庫平均插入長度,測序文庫長度,諮詢公司或者查看測序報告。
reverse_seq
#序列是否需要反轉,由於大於等於2k的文庫採用了環化,所以文庫大於等於2k的需要反轉,大於等於2k文庫設置為1,小文庫設置為;
asm_flags
#這一文庫的數據用於那一過程1(only contig assembly), 2 (only scaffold assembly),3(both contig and scaffold assembly), or 4 (only gap closure).
rank
#rank該值取整數,決定了reads用於構建scaffold的次序,值越低,數據越優先用於構建scaffold。一般將短插入片段設為1;2k設為2;5k設為3;10k設為4。
q1=/path to your data/R1.fastq
#為fastq reads1文件
q2=/path to your data/R2.fastq
#為fastq reads2文件
f1=/path to your data/.R1.fasta
f2=/path to your data/.R2.fasta
#為fasta文件
q=/path to your data/1.fq
#單向測序得到的fastq格式的文件;
f=/path to your data/2.fa
#單向測序得到的fasta格式的文件;可是是三代測序或者454的測序結果;
配置文件示例(配置文件命名為config.txt):
max_rd_len=90
[LIB]
avg_ins=350
reverse_seq=0
asm_flags=3
rank=1
q1=/path to your data.R1.fastq
q2=/path to your data.R2.fastq
[LIB]
avg_ins=2000
reverse_seq=1
asm_flags=2
rank=2
q1=/path to your data.R1.fastq
q2=/path to your data.R2.fastq
#如果我們還有其他文庫,可以繼續添加,每個[LIB]是一個模塊
SOAPdenovo拼接命令:
SOAPdenovo-63mer all -s config.txt -p 10 -o result -K 51 -R 2>log.txt &
#當然該命令是通過測試不同的Kmer後選擇的最佳Kmer值,一般拿到原始數據之後,我們會對數據進行不同Kmer的測試,選擇最佳的Kmer.
######注意事項
當測序reads長度較長時,選擇較大的kmer值能獲得較好的組裝結果;一般情況下,kmer值為reads長度的55%-85%能得到較好的組裝結果。
-s:配置文件的路徑;
-o:輸出文件的前綴;
-p:線程數;
-K:kmer值;
-R:resolve repeats by reads.一般建議加上此參數。
由於Kmer值對基因組的組裝影響較大,建議選擇不同的Kmer值進行拼接,取最優結果。
拼接結果為:
*.contig:conting sequences without using mate pairinformation.
*.scafSeq:scaffold sequences.
4. 基因組補洞:
使用GapCloser進行補洞,隨SOAPdenovo一起發布。
軟體下載:
https://sourceforge.net/projects/soapdenovo2/files/GapCloser/bin/r6/GapCloser-bin-v1.12-r6.tgz
安裝方法同上;
軟體使用:GapCloser -a *.scafSeq -bconfig.txt -o gapcloser.fasta -t 4
-a:輸入基因組序列的fasta文件,即為上一步得到的序列。
-b:SOPAdenovo的配置文件;
-o:輸出文件的路徑;
-t:線程數.
GapCloser軟體的輸出信息為:
gapcloser.fa:補洞完畢後的基因組序列文件;
######注意事項
補洞程序只能運行一次,一定要避免運行多次,切記!
得到的序列即為拼接好的細菌基因組。
參考資料:
(1)NGS生物信息分析v4.2;
(2)Beginner』s guide tocomparative bacterial genome analysis using next-generation sequence data;
(3)?SOAPdenovo2: an empirically improvedmemory-efficient short-read de novo assembler.
什麼?流程給了,沒有數據,好辦,我從NCBI幫大家找了一個大腸桿菌的基因組測序數據,供大家練習,我看了一下都是paired數據。
不同文庫序列號:
3. 插入片段 為2 kb:SRX1327054
4. 插入片段 為180 bp: SRX1320315
如何下載:
教大家一招:使用Windonws 系統下載NCBI SRA數據,利用CMD終端,前提是裝一個SRAtool到自己電腦:
Windows系統直接調用:
下載命令:
start /b D:iosoftsratoolkit.2.8.2-1-win64sratoolkit.2.8.2-1-win64infastq-dump.exeSRX1295865
下載後利用SRAtool轉換一下格式。
命令:
fastq-dump --split-files *.sra
強調一下:avg_ins 參數表示文庫插入片段大小。
大腸桿菌基因組參考文獻:
Zhang Y C, Yan Z, Zhu B R, et al. Genome sequences of two closely related strains of Escherichia coli K-12 GM4792[J]. Standards in Genomic Sciences, 2015, 10(1):125.
當然細菌的拼接速度那是杠杠的,對於植物、動物來講,流程是一樣的!
如果覺得我們的公眾號有用,請點點手指宣傳一下我們的公眾號。
你們的支持將是我們不斷更新的動力!
TAG:生信百科 |
※宏基因組學基本介紹
※生命的基因組
※基因系列:基因重組的那些事兒
※華大智造攜手基因組數據平台微基因WeGene,啟動「人人基因組時代」
※科學家通過基因組編輯從DNA中切除主要的心臟病風險基因座
※深度學習+基因組學:破譯人類 30 億鹼基對
※深度學習 + 基因組學:破譯人類 30 億鹼基對
※科學家將人類大腦基因編輯入猴子基因組中
※科學家實現用USB設備對人類基因組測序
※科學家破譯藍鯨基因組
※科學家破譯構樹基因組
※基因「魔剪」成功滅活HIV基因
※絕對精確地修飾人類基因組中的單個DNA鹼基,日本開發新型基因組編輯技術
※美國啟動基因組編輯研究項目 基因測序板塊或迎機遇
※基因和轉基因恐慌
※人類基因與動物基因結合在一起的8個雜交實驗
※美國農業部表示不會基因編輯作物,基因編輯和轉基因有什麼區別?
※科學家改進基因編輯技術CRISPR 有望加速細胞基因組的編輯
※全基因組水平基因分型方法
※基因編輯嬰兒誕生後 國際人類基因組編輯峰會炸鍋了