開年聯配新方法:DART
「
生信草堂
將會與更多的優秀微信公眾號合作,把最優秀的微信推文呈現給大家,希望可以幫助讀者更多的了解生信技術,培養和提高讀者的生信分析能力!
號外,號外,號外
你想和生信分析大神做好朋友么?
你想認識更多愛好生信分析的小夥伴么?
你想讓自己的生信分析走上快車道么?
那就趕快加入我們的生信交流微信群吧!
正確加入我們的模式是:
添加我們的微信bioinformatics88為好友
標註「加入生信草堂交流群」
在群里請大家註明自己本名,單位,研究領域
便於小編管理
今年一月份,老牌生信雜誌《Bioinformatics》發表了一篇由台灣團隊開發的RNA-seq mapping新軟體的文章,針對RNA測序數據分析的效率和準確度問題做了進一步的改善,下面就讓我們來了解下該軟體。
文章名:《DART: a fast and accurate RNA-seq mapper with a partitioning strategy》
Github:https://github.com/hsinnan75/DART
DART是一款用C/C?++開發的運行在Linux上的軟體,良好的支持多線程運行。DART的運行需要BWT-based index file和FASTA/FASTQ作為輸入數據,BWT-based index也就是BWA生成的index文件。BWA我們都知道,多年的二代測序軟體,這次DART直接使用BWA的index可能是出於節省開發成本的考量。
目前大部分的序列聯配軟體採用的是seed-and-extend strategy的方法來尋找最優解,但是在extend這一步消耗的時間卻成為各軟體最耗時的部分。DART在seed完成後並不是進入extend這一步,而是使用了partitioning mapping strategy的設計,作者說該設計相比於傳統的extend可以減少運行耗時。那麼具體的情況如何,我們來看看評測部分。
作者採用了針對模擬數據和真實數據進行分析的結果來橫向對比DART和STAR/ TopHat2/Subread/MapSplice2/HISAT2這些軟體在Sensitivity/ Accuracy/ SJ accuracy/Runtime等指標上的差異。
首先是模擬數據,作者用Flux simulator根絕人類轉錄本的數據模擬出了四個類似於illumina下機雙端數據的不同長度數據集,四個長度信息分別是76bp,101bp,151bp和251bp。每一個數據集包含40,000,000個paired-end reads,每一個軟體的運行環境都充分滿足該軟體所需要的運行資源,並且在16線程下運行以便真實的測試該軟體的實際分析能力。從下表的結果中可以看出對於模擬數據,DART/STAR/ Subread/MapSplice2在Sensitivity/ Accuracy/ SJ accuracy/Recall/SeqIdy等指標上都是非常接近且足夠優秀,而TopHat2/HISAT2則有點掉隊;在Runtime這一部分,DART處於最快的第一梯隊,STAR和HISAT2是次快的第二梯隊;這兩部分的信息說明DART在處理模擬數據時是非常優秀的。
接下來是對真實數據的測評。作者找了四個SRA數據SRR3351428, ERR1518881, SRR3439468和SRR3439488進行真實數據的分析,發現DART的表現模式接近於STAR但是要優於STAR,有著最高的Sensitivity,但是SJ accuracy要低於HISAT2(HISAT2採用的策略是減少發現的junction數量來保證精確度);在時間這一欄上,DART依舊是最好的,但是速度優勢沒有模擬數據時那麼明顯。總體來說DART在真實數據的表現上也是非常的優秀。
除了以上的評測,還有兩個比較常見的性能參數:內存佔用和多線程優化。針對這兩點作者也給出了評測結果,在內存佔用方面,DART在16線程下處理模擬數據佔用了12GB的內存,在這些評估軟體里只好於STAR,低於其他任何一款,相比於常用的HISAT2的5.6GB內存高了一倍左右,處於可接受的範圍。在多線程上,DART在1—16線程的測試中表現非常完美,隨著線程的增加,所需時間也是等比例的減少,說明作者對軟體的多線程優化是非常的不錯
最後,附上DART的使用方法:
1.建立index
軟體包內自帶的bwa_index:
./bwa_index ref_file[ex.ecoli.fa] index_prefix[ex. Ecoli]
或者用BWA軟體的index參數:
./bwa index -p index_prefix xxxx.fa
2.序列聯配
./dart -i ecoli -t 10 -f ReadFile1.fa -f2 ReadFile2.fa -o out.sam
-i 後面跟上index的名稱
-t 線程數量
標準輸出sam格式
總結
DART表現還是不錯的,特別是在保證敏感度和準確度前提下的速度優勢很亮眼,但是這不能保證DART將來會被人們廣泛使用,畢竟像HISAT2和STAR的用戶基礎很廣大,甚至依舊使用TOPHAT2/bowtie2的也大有人在。但是無論如何,該台灣團隊又給我們提供了一個可供選擇的RNA-seq聯配軟體,豐富了我們生信工作人員的武器庫!
小編有話說
近日陸陸續有朋友發後台要一些文獻解讀的原文獻,這是可以的,我們也非常支持。在此聲明一下,凡是原創文,文中涉及有解讀文獻的,朋友們想要資源的請寫出或截圖出推文名,以便小編找到相應文獻發送大家~~謝謝。
祝各位一看就懂,一學就會~


TAG:生信草堂 |