當前位置:
首頁 > 最新 > 如何在5分鐘內拿到細胞器基因組的進化樹

如何在5分鐘內拿到細胞器基因組的進化樹

前記-HomoBlock

雷神之錘的我,之前設計了一個HomBlocks流程,可以很方便地幫助大家構建細胞器基因組的比對序列,再用來建樹。大家如果不明所以的話,可以搜索查看基迪奧論壇上我的其他的帖子,就知道這個流程具體怎麼運行,最終用來幹什麼了。

HomBlocks也發表在了Genomics上,地址:http://www.sciencedirect.com/sci ... i/S088875431730068X

當時發帖的時候,號稱一天之內拿到細胞器基因組樹。自然,在序列數目不多的時候,HomBlocks的運行還是比較快的,一天之內拿到比對好的序列,用MEGA跑一下NJ樹還是沒有問題的。但是隨著序列數目的增加、物種親緣性的疏遠、序列長度差異越大或者清一色使用葉綠體基因組,會導致軟體運行的時間還是比較久。比如使用70個葉綠體序列,來跑HomBlocks可能會花上幾天時間。

因為Mauve的比對只能單線程運行,所以速度上沒有辦法再提高。

雖然HomBlocks的依然能跑出結果,但是讓人等待的過程也實在是煎熬。什麼時候能跑出來?跑到哪裡了?程序是不是中斷了?

再雖然,HomBlocks相比傳統手動方法(手動挑取基因序列進行比對再合併序列)在效率上和簡便性上,已經算得上很不錯啦。起碼你只需要等待,無須手動,也不怕出來的序列有問題。

但是!就真沒有更快的方法了嗎?


雷神の錘告訴你,還真有!我給你搞出來了!現在的方法號稱:

「五!分!鍾!內!拿!到!細!胞!器!基!因!組!的!進!化!樹!」。

我們這個新的方法(也算不上什麼流程),叫做BLAST2OGMSA。

這個新方法的文章題目我也想好了——BLAST2OGMSA: an convenient way to construct whole organelle genomes alignment to facilitate phylogeny analysis.

大家看到這個題目大概也了解了,為什麼我們能在5分鐘之內拿到這麼個東西了。

比對的話,什麼最快?mafft?clustalw?muscle? No, No, No, No。是BLAST!

不然NT資料庫那麼大,你怎麼能夠那麼快速地在網頁上檢索序列呢?

那我們需要自行構建序列的庫,然後兩兩比對,再解析blast結果嗎?

不需要!

正常的思路的確是這樣,利用blast的快速比對(雖然在比對精度上不如其他正統序列比對軟體),來解析blast結果。但是,還是挺麻煩的。首先要把blast結果保存成xml格式,然後再提取序列,序列再定位,再提取.............然後你會發現,對位還是有問題,還不如直接用mafft來比呢。

但BLAST2OGMSA直接避開了這麼個過程,直接使用ncbi網頁版BLAST工具就行了。

BLAST2OGMSA就是一個腳本,只需要你提供兩個文件就行。

那這兩個文件從哪來?


那順便說一下BLAST2OGMSA的使用方法:

首先,將你需要構建系統發生樹的所有序列,合併在一個文件里。

打開ncbi的BLAST工具, 點開Align two or more sequences選項。

image

將你準備好的序列,隨便選一個,放入第一欄;將所有序列選中,放入第二欄,然後比對啦。

Blast.png

然後產生的output.fasta就是我們可以用來建樹的序列啦!然後簡單跑一下NJ:

nj.png


還記得我第一篇帖子中的36個嚙齒類動物線粒體的系統發生樹嗎?結構一致哦,節點的支持度都OK!這個過程花了多長時間?5分鐘都沒有吧!

BLAST2OGMSA也跟HomBlocks提供了4中序列修剪方法:

Gblock

trimAl

BMGE

Noisy

所以大家用的時候,可以按照自己的需要進行選擇。

BLAST2OGMSA的用法也實在很簡單,沒有別的參數,只需要按順序把文件列好就行了,可以參考例子中的命令,如果不知道怎麼用,那麼直接perl BLAST2OGMSA.pl查看一下就行了。


BLAST2OGMSA的地址:https://github.com/fenghen360/BLAST2OGMSA

下載解壓之後,需要將bin目錄下的所有文件可執行化:chmod 755 * 就行。

剛有空寫出來,readme都沒來得及詳細寫,大家忽略readme就行,我有空再好好寫寫。


大家引用的話,就先這麼寫就好:

the genome-wide alignment of XXX genomes was constructed by BLAST2OGMSA ([https://github.com/fenghen360/BLAST2OGMSA) (https://github.com/fenghen360/BLAST2OGMSA), resulting in XXXXX characters of each species, which including all PCGs and rRNA genes.


有三個方式可以找到作者

bioinformatics{*}中國(276151571) - 還剩幾個空位

bioinformatics{*}中國大分舵(744366744)

Omicshare論壇


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 生信札記 的精彩文章:

windows下安裝HMMER軟體進行結構域模式掃描

TAG:生信札記 |