小技巧之菌株鑒定測序結果轉成fasta格式
這裡將不定期分享一些軟體處理及文本操作時的小技巧,相信這些小技巧會帶給你不一樣的辦公體驗。
本期目標:快速將菌株鑒定過程中測序結果修改成fasta格式的文件!
使用工具:文本編輯器notepad++;
原理:利用正則表達式快速替換掉剪輯數目,然後利用軟體去掉行首空格,最後再把序列命名即可得到我們希望得到的fasta格式的文件。
名詞解釋
正則表達式:它是指一種字元匹配的規則,其實我們已經經常用到了,比如說我們用「*」代表任意字元,正則表達式就是一系列這種規則的總稱,很有魔幻色彩的一種方法。
fasta格式:我們生物信息分析過程中的一種常見格式,其中使用」>」作為標識符,然後緊接著是這個序列的一些信息,如果是從NCBI上下載下來的序列,」>」後面往往跟著這條序列的accession號,在後面是對這條序列的描述,比如說這條序列是什麼物種的序列,有什麼功能。然後,一個換行符後另起一行跟隨的是序列。
操作過程
用notepad++打開最後拼接完的序列。右擊文件,選擇用notepad++打開文件,結果如圖所示,在序列的左邊有一些數字,代表的是該行第一個鹼基是第多少個。一行有60個鹼基,每10個鹼基後跟著一個空格。
在菜單欄中選擇搜索後在下拉菜單中選擇替換或者直接使用快捷鍵Ctrl+H,選中循環查找和正則表達式,在查找目標中填入[0-9],替換為中保持為空,然後全部替換就將所有的數字替換為空。
在菜單欄編輯的下拉菜單中選擇空白字元操作命令中的移除行首空格即可得到只有序列的文本。
對序列進行命名,最後可以把文本保存為fasta後綴的文件。
個人總結:這個技巧其實是比較初級的一種利用正則表達式的方法,大家可以根據文本本身的特徵自己去做一些匹配和替換,相信可以節省大部分的時間的。
感謝你看完今天的分享,和你一起成長為更好的自己!


TAG:生信學徒 |