如何在5分鐘內拿到細胞器基因組的進化樹
前記-HomoBlock
雷神之錘的我,之前設計了一個HomBlocks流程,可以很方便地幫助大家構建細胞器基因組的比對序列,再用來建樹。大家如果不明所以的話,可以搜索查看基迪奧論壇上我的其他的帖子,就知道這個流程具體怎麼運行,最終用來幹什麼了。
HomBlocks也發表在了Genomics上,地址:http://www.sciencedirect.com/sci ... i/S088875431730068X
當時發帖的時候,號稱一天之內拿到細胞器基因組樹。自然,在序列數目不多的時候,HomBlocks的運行還是比較快的,一天之內拿到比對好的序列,用MEGA跑一下NJ樹還是沒有問題的。但是隨著序列數目的增加、物種親緣性的疏遠、序列長度差異越大或者清一色使用葉綠體基因組,會導致軟體運行的時間還是比較久。比如使用70個葉綠體序列,來跑HomBlocks可能會花上幾天時間。
因為Mauve的比對只能單線程運行,所以速度上沒有辦法再提高。
雖然HomBlocks的依然能跑出結果,但是讓人等待的過程也實在是煎熬。什麼時候能跑出來?跑到哪裡了?程序是不是中斷了?
再雖然,HomBlocks相比傳統手動方法(手動挑取基因序列進行比對再合併序列)在效率上和簡便性上,已經算得上很不錯啦。起碼你只需要等待,無須手動,也不怕出來的序列有問題。
但是!就真沒有更快的方法了嗎?
升級-BLAST2OGMSA
雷神の錘告訴你,還真有!我給你搞出來了!現在的方法號稱:
「五!分!鍾!內!拿!到!細!胞!器!基!因!組!的!進!化!樹!」。
我們這個新的方法(也算不上什麼流程),叫做BLAST2OGMSA。
這個新方法的文章題目我也想好了——BLAST2OGMSA: an convenient way to construct whole organelle genomes alignment to facilitate phylogeny analysis.
大家看到這個題目大概也了解了,為什麼我們能在5分鐘之內拿到這麼個東西了。
比對的話,什麼最快?mafft?clustalw?muscle? No, No, No, No。是BLAST!
不然NT資料庫那麼大,你怎麼能夠那麼快速地在網頁上檢索序列呢?
那我們需要自行構建序列的庫,然後兩兩比對,再解析blast結果嗎?
不需要!
正常的思路的確是這樣,利用blast的快速比對(雖然在比對精度上不如其他正統序列比對軟體),來解析blast結果。但是,還是挺麻煩的。首先要把blast結果保存成xml格式,然後再提取序列,序列再定位,再提取.............然後你會發現,對位還是有問題,還不如直接用mafft來比呢。
但BLAST2OGMSA直接避開了這麼個過程,直接使用ncbi網頁版BLAST工具就行了。
BLAST2OGMSA就是一個腳本,只需要你提供兩個文件就行。
那這兩個文件從哪來?
操作-超快
那順便說一下BLAST2OGMSA的使用方法:
首先,將你需要構建系統發生樹的所有序列,合併在一個文件里。
打開ncbi的BLAST工具, 點開Align two or more sequences選項。
image
將你準備好的序列,隨便選一個,放入第一欄;將所有序列選中,放入第二欄,然後比對啦。
Blast.png
然後產生的output.fasta就是我們可以用來建樹的序列啦!然後簡單跑一下NJ:
nj.png
結果-完美
還記得我第一篇帖子中的36個嚙齒類動物線粒體的系統發生樹嗎?結構一致哦,節點的支持度都OK!這個過程花了多長時間?5分鐘都沒有吧!
BLAST2OGMSA也跟HomBlocks提供了4中序列修剪方法:
Gblock
trimAl
BMGE
Noisy
所以大家用的時候,可以按照自己的需要進行選擇。
BLAST2OGMSA的用法也實在很簡單,沒有別的參數,只需要按順序把文件列好就行了,可以參考例子中的命令,如果不知道怎麼用,那麼直接perl BLAST2OGMSA.pl查看一下就行了。
軟體下載與使用
BLAST2OGMSA的地址:https://github.com/fenghen360/BLAST2OGMSA
下載解壓之後,需要將bin目錄下的所有文件可執行化:chmod 755 * 就行。
剛有空寫出來,readme都沒來得及詳細寫,大家忽略readme就行,我有空再好好寫寫。
引用
大家引用的話,就先這麼寫就好:
the genome-wide alignment of XXX genomes was constructed by BLAST2OGMSA ([https://github.com/fenghen360/BLAST2OGMSA) (https://github.com/fenghen360/BLAST2OGMSA), resulting in XXXXX characters of each species, which including all PCGs and rRNA genes.
後記-聯繫作者
有三個方式可以找到作者
bioinformatics{*}中國(276151571) - 還剩幾個空位
bioinformatics{*}中國大分舵(744366744)
Omicshare論壇
TAG:生信札記 |