如何在5分鐘內拿到細胞器基因組的進化樹

前記-HomoBlock

雷神之錘的我，之前設計了一個HomBlocks流程，可以很方便地幫助大家構建細胞器基因組的比對序列，再用來建樹。大家如果不明所以的話，可以搜索查看基迪奧論壇上我的其他的帖子，就知道這個流程具體怎麼運行，最終用來幹什麼了。

HomBlocks也發表在了Genomics上，地址：http://www.sciencedirect.com/sci ... i/S088875431730068X

當時發帖的時候，號稱一天之內拿到細胞器基因組樹。自然，在序列數目不多的時候，HomBlocks的運行還是比較快的，一天之內拿到比對好的序列，用MEGA跑一下NJ樹還是沒有問題的。但是隨著序列數目的增加、物種親緣性的疏遠、序列長度差異越大或者清一色使用葉綠體基因組，會導致軟體運行的時間還是比較久。比如使用70個葉綠體序列，來跑HomBlocks可能會花上幾天時間。

因為Mauve的比對只能單線程運行，所以速度上沒有辦法再提高。

雖然HomBlocks的依然能跑出結果，但是讓人等待的過程也實在是煎熬。什麼時候能跑出來？跑到哪裡了？程序是不是中斷了？

再雖然，HomBlocks相比傳統手動方法（手動挑取基因序列進行比對再合併序列）在效率上和簡便性上，已經算得上很不錯啦。起碼你只需要等待，無須手動，也不怕出來的序列有問題。

但是！就真沒有更快的方法了嗎？

雷神の錘告訴你，還真有！我給你搞出來了！現在的方法號稱：

「五！分！鍾！內！拿！到！細！胞！器！基！因！組！的！進！化！樹！」。

我們這個新的方法（也算不上什麼流程），叫做BLAST2OGMSA。

這個新方法的文章題目我也想好了——BLAST2OGMSA: an convenient way to construct whole organelle genomes alignment to facilitate phylogeny analysis.

大家看到這個題目大概也了解了，為什麼我們能在5分鐘之內拿到這麼個東西了。

比對的話，什麼最快？mafft?clustalw?muscle? No, No, No, No。是BLAST!

不然NT資料庫那麼大，你怎麼能夠那麼快速地在網頁上檢索序列呢？

那我們需要自行構建序列的庫，然後兩兩比對，再解析blast結果嗎？

不需要！

正常的思路的確是這樣，利用blast的快速比對（雖然在比對精度上不如其他正統序列比對軟體），來解析blast結果。但是，還是挺麻煩的。首先要把blast結果保存成xml格式，然後再提取序列，序列再定位，再提取.............然後你會發現，對位還是有問題，還不如直接用mafft來比呢。

但BLAST2OGMSA直接避開了這麼個過程，直接使用ncbi網頁版BLAST工具就行了。

BLAST2OGMSA就是一個腳本，只需要你提供兩個文件就行。

那這兩個文件從哪來？

那順便說一下BLAST2OGMSA的使用方法：

首先，將你需要構建系統發生樹的所有序列，合併在一個文件里。

打開ncbi的BLAST工具，點開Align two or more sequences選項。

image

將你準備好的序列，隨便選一個，放入第一欄；將所有序列選中，放入第二欄，然後比對啦。

Blast.png

然後產生的output.fasta就是我們可以用來建樹的序列啦！然後簡單跑一下NJ:

nj.png

還記得我第一篇帖子中的36個嚙齒類動物線粒體的系統發生樹嗎？結構一致哦，節點的支持度都OK！這個過程花了多長時間？5分鐘都沒有吧！

BLAST2OGMSA也跟HomBlocks提供了4中序列修剪方法：

Gblock

trimAl

BMGE

Noisy

所以大家用的時候，可以按照自己的需要進行選擇。

BLAST2OGMSA的用法也實在很簡單，沒有別的參數，只需要按順序把文件列好就行了，可以參考例子中的命令，如果不知道怎麼用，那麼直接perl BLAST2OGMSA.pl查看一下就行了。

BLAST2OGMSA的地址：https://github.com/fenghen360/BLAST2OGMSA

下載解壓之後，需要將bin目錄下的所有文件可執行化：chmod 755 * 就行。

剛有空寫出來，readme都沒來得及詳細寫，大家忽略readme就行，我有空再好好寫寫。

大家引用的話，就先這麼寫就好：

the genome-wide alignment of XXX genomes was constructed by BLAST2OGMSA ([https://github.com/fenghen360/BLAST2OGMSA) (https://github.com/fenghen360/BLAST2OGMSA), resulting in XXXXX characters of each species, which including all PCGs and rRNA genes.

有三個方式可以找到作者

bioinformatics{*}中國(276151571) - 還剩幾個空位

bioinformatics{*}中國大分舵(744366744)

Omicshare論壇

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！