基因組學-基因組的拼接實例

最新 05-27

細心的朋友已經發現了，我們一周每天的內容都是不同的，這是因為每天都有不同的小編給大家更新，每個小編都有不同的知識背景，這也方便我們能夠學到更多維度的生信知識，歡迎繼續關注！

另外告訴大家一個好消息，從這周開始，周末我們也會進行更新！是不是很爽！

今天恰好周五更新的小編出差了，今天我就插個隊。我們如約進行基因組拼接實例講解。

對不住了，公司銷售!

當然有了拼接好的基因組，我們還有基因預測，注釋等模塊等待更新，敬請期待！

讓我們開始吧！

基因組的拼接軟體較多：如：Newbler、Edena、SOAPdenovo、ALLPATHS-LG、MaSuRCA、Velvet等軟體。

我們今天跟大家分享華大基因研發的基因組拼接軟體SOAPdenovo，該工具除拼接以外，還可以進行SNP、SNV的挖掘，如需要請自行查看manual。

1. SOAPdenovo有什麼特點呢：

（1）基因組組裝的速度快；

（2）基因組組裝N50值較高；

（3）但基因組組裝錯誤率略高於其他軟體。

2. SOAPdenovo下載地址：

https://sourceforge.net/projects/soapdenovo2/files/SOAPdenovo2/bin/r240/SOAPdenovo2-bin-LINUX-generic-r240.tgz

下載軟體為二進位的版本，解壓完成以後，不用編譯可立即使用。

3. 組裝過程

SOAPdenovo軟體的命令有SOAPdenovo-127mer和SOAPdenovo-63mer兩個版本，其中，63mer版本支持的kmer最大值為63；127mer版本支持的最大kmer值為127。

SOAPdenovo其實是一個工具集，包含pregraph、sparse_pregraph、contig、map、scaffold和all共6個工具，前五個工具集分別進行基因組de bruijn圖的構建、contig構建、reads比對和scaffold連接等基因組組裝步驟。而all可以一次性的完成上述五個工具包的所有工作。

使用SOAPdenovo軟體組裝基因組之前，需要建立一個配置文件，配置文件中包括數據的特性、reads文件的路徑等信息。

配置文件各個參數，vi打開參數文件（config.txt）之後，會有以下幾個參數需要設置：

max_rd_len

#最大的reads讀長，該值一般設置比最大長度稍小；

[LIB]

#文庫信息以此開頭

avg_ins

#文庫平均插入長度,測序文庫長度，諮詢公司或者查看測序報告。

reverse_seq

#序列是否需要反轉，由於大於等於2k的文庫採用了環化，所以文庫大於等於2k的需要反轉，大於等於2k文庫設置為1，小文庫設置為；

asm_flags

#這一文庫的數據用於那一過程1(only contig assembly), 2 (only scaffold assembly),3(both contig and scaffold assembly), or 4 (only gap closure).

rank

#rank該值取整數，決定了reads用於構建scaffold的次序，值越低，數據越優先用於構建scaffold。一般將短插入片段設為1；2k設為2；5k設為3；10k設為4。

q1=/path to your data/R1.fastq

#為fastq reads1文件

q2=/path to your data/R2.fastq

#為fastq reads2文件

f1=/path to your data/.R1.fasta

f2=/path to your data/.R2.fasta

#為fasta文件

q=/path to your data/1.fq

#單向測序得到的fastq格式的文件；

f=/path to your data/2.fa

#單向測序得到的fasta格式的文件;可是是三代測序或者454的測序結果；

配置文件示例(配置文件命名為config.txt)：

max_rd_len=90

[LIB]

avg_ins=350

reverse_seq=0

asm_flags=3

rank=1

q1=/path to your data.R1.fastq

q2=/path to your data.R2.fastq

[LIB]

avg_ins=2000

reverse_seq=1

asm_flags=2

rank=2

q1=/path to your data.R1.fastq

q2=/path to your data.R2.fastq

#如果我們還有其他文庫，可以繼續添加，每個[LIB]是一個模塊

SOAPdenovo拼接命令：

SOAPdenovo-63mer all -s config.txt -p 10 -o result -K 51 -R 2>log.txt &

#當然該命令是通過測試不同的Kmer後選擇的最佳Kmer值，一般拿到原始數據之後，我們會對數據進行不同Kmer的測試，選擇最佳的Kmer.

######注意事項

當測序reads長度較長時，選擇較大的kmer值能獲得較好的組裝結果；一般情況下，kmer值為reads長度的55%-85%能得到較好的組裝結果。

-s:配置文件的路徑；

-o:輸出文件的前綴；

-p:線程數；

-K:kmer值；

-R:resolve repeats by reads.一般建議加上此參數。

由於Kmer值對基因組的組裝影響較大，建議選擇不同的Kmer值進行拼接，取最優結果。

拼接結果為：

*.contig:conting sequences without using mate pairinformation.

*.scafSeq:scaffold sequences.

4. 基因組補洞：

使用GapCloser進行補洞，隨SOAPdenovo一起發布。

軟體下載：

https://sourceforge.net/projects/soapdenovo2/files/GapCloser/bin/r6/GapCloser-bin-v1.12-r6.tgz

安裝方法同上；

軟體使用：GapCloser -a *.scafSeq -bconfig.txt -o gapcloser.fasta -t 4

-a:輸入基因組序列的fasta文件，即為上一步得到的序列。

-b:SOPAdenovo的配置文件；

-o:輸出文件的路徑；

-t:線程數.

GapCloser軟體的輸出信息為：

gapcloser.fa:補洞完畢後的基因組序列文件；

######注意事項

補洞程序只能運行一次，一定要避免運行多次，切記！

得到的序列即為拼接好的細菌基因組。

參考資料：

(1)NGS生物信息分析v4.2;

(2)Beginner』s guide tocomparative bacterial genome analysis using next-generation sequence data;

(3)?SOAPdenovo2: an empirically improvedmemory-efficient short-read de novo assembler.

什麼？流程給了，沒有數據，好辦，我從NCBI幫大家找了一個大腸桿菌的基因組測序數據，供大家練習，我看了一下都是paired數據。

不同文庫序列號：

3. 插入片段為2 kb：SRX1327054

4. 插入片段為180 bp: SRX1320315

如何下載：

教大家一招：使用Windonws 系統下載NCBI SRA數據，利用CMD終端，前提是裝一個SRAtool到自己電腦：

Windows系統直接調用：

下載命令：

start /b D:iosoftsratoolkit.2.8.2-1-win64sratoolkit.2.8.2-1-win64infastq-dump.exeSRX1295865

下載後利用SRAtool轉換一下格式。

命令：

fastq-dump --split-files *.sra

強調一下：avg_ins 參數表示文庫插入片段大小。

大腸桿菌基因組參考文獻：

Zhang Y C, Yan Z, Zhu B R, et al. Genome sequences of two closely related strains of Escherichia coli K-12 GM4792[J]. Standards in Genomic Sciences, 2015, 10(1):125.

當然細菌的拼接速度那是杠杠的，對於植物、動物來講，流程是一樣的！

如果覺得我們的公眾號有用，請點點手指宣傳一下我們的公眾號。

你們的支持將是我們不斷更新的動力！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 生信百科 的精彩文章:

TAG:生信百科 |

您可能感興趣

※宏基因組學基本介紹
※生命的基因組
※基因系列：基因重組的那些事兒
※華大智造攜手基因組數據平台微基因WeGene，啟動「人人基因組時代」
※科學家通過基因組編輯從DNA中切除主要的心臟病風險基因座
※深度學習＋基因組學：破譯人類 30 億鹼基對
※深度學習 + 基因組學：破譯人類 30 億鹼基對
※科學家將人類大腦基因編輯入猴子基因組中
※科學家實現用USB設備對人類基因組測序
※科學家破譯藍鯨基因組
※科學家破譯構樹基因組
※基因「魔剪」成功滅活HIV基因
※絕對精確地修飾人類基因組中的單個DNA鹼基，日本開發新型基因組編輯技術
※美國啟動基因組編輯研究項目基因測序板塊或迎機遇
※基因和轉基因恐慌
※人類基因與動物基因結合在一起的8個雜交實驗
※美國農業部表示不會基因編輯作物，基因編輯和轉基因有什麼區別？
※科學家改進基因編輯技術CRISPR 有望加速細胞基因組的編輯
※全基因組水平基因分型方法
※基因編輯嬰兒誕生後國際人類基因組編輯峰會炸鍋了