生物信息百Jia軟體(八):blat
編者按
blat也是學習生物信息需要掌握的一款工具。blat與blast其實是不同的,雖然都是局部比對工具,但是blat實現了「多對一」的比對,也就是能將不同的外顯子定位到同一個基因上。我喜歡blat可以輸出多種比對格式結果的模式,默認是psl,但其實可以輸出blast同樣格式的結果,還有比較容易閱讀的axt格式結果。需要注意的是,blat的其實比對坐標與blast不同。
一、功能分類:
局部比對
二、軟體官網:
http://hgwdev.cse.ucsc.edu/~kent/exe/linux/
三、軟體介紹:
Blat的全稱是The BLAST-Like Alignment Tool,可以稱為"類BLAST 比對工具",由W.James Kent於2002年開發。當時隨著人類基因組計劃的進展,把大量基因和ESTs 快速定位到較大的基因組上成為一種迫切的需求。
blast 對於這種比對需求有幾個缺陷:1、速度偏慢;2、結果難於處理;3、無發表示出包含內含子的基因定位。Blat比對軟體 就是在這種形勢下應運而生了。另外,相對於blast,blat使用簡單,速度更快,而且不需要建庫過程,可以輸出多種比對格式的比對結果。
blat特別適合將基因、cds重新定位到染色體上,這個在轉錄組分析中非常有用。在真核生物中,mRNA在加工成熟過程中需要切出內含子,轉錄本也存在可變剪切,也就是假設一個基因有1234四個外顯子,那麼最終得到的cds可能是123,也可能是124,這是如果在將測序出來的轉錄本定位到基因組上,124三個外顯子需要分別定位到三個位子,如果是blast就會斷成3個比對,而blat卻會識別出這是一個比對,存在多個gap,很好了解決了轉錄本定位到基因組上的問題。四、下載安裝:
unzip blatSuite.36.zip
五、軟體使用:
blat的有很多參數。但是大部分默認即可。blat可進行核酸水平的比對,也可以進行氨基酸水平的比對,同時也支持核酸翻譯到氨基酸水平的比對。
Blat 的輸入文件必須滿足fasta 格式,運行時非常簡單,不需要進行建庫就可以直接比對。敲blat,然後接目標序列 ,query序列,然後是輸出文件名,但是順序不能寫錯了。這樣就可以開始比對了。程序正常運行時,會在讀完database 中的所有subject 序列時在屏幕輸出database的統計結果。blat的一些重要選項參數。
-noHead 不輸出表頭信息,這個在進行下一步軟體處理時比較方便,如果對格式很熟悉,不輸出以可以;-out 選擇輸出格式。可以選擇lastz的axt格式,maf格式,wublast格式和blast m0 m8和m9格式。-t 和-q和-prot參數指定比對的類型。blat也可以進行氨基酸比對和核酸在氨基酸水平比對。blast是通過-p指定比對類型,而blat則是通過分別指定query和subject的格式來解決這個問題。-t可以等於dna和prot蛋白質和dnax,-q可以等於dna,rna,prot,dnax和rnax等,如果需要核酸序列文件在氨基酸水平比對,那-t和-q都應該等於dnax,氨基酸比對時間要慢一些。-prot指定二者都是氨基酸序列。剩餘很多參數都是用來限制比對條件的,例如是否處理N鹼基Gap,重複序列,PolyA、比對字長、identity,比分等,可以根據具體比對進行調節。六、使用案例:
blat ref.fna query.fna blat.outblat genome.fna gene.ffn -out=axt blat.out
七、結果解析:
程序默認輸出為psl格式的列表結果文件。
Psl 格式的結果包含了詳細的比對位置信息,每一列的意義都 在文件開頭列出。第1~8列是總體的比對統計,包括精確比對鹼基數、錯配、query 和subject上的gap個數總長等等;第9~17 列是比對位置信息,包括比對方向、query 和subject 的名字、長度、比對起止位置;18~21 列是顯示每一個精確比對的block 的信息,包括blocks 數、每個block的長度和在query、subject上的位置。對於psl輸出結果,需要注意幾點。1、blat 的結果在subject 上允許存在很大的gap(intron 區域),所以同一個結果在query和subjects 上覆蓋的區域可能會相差很多,這一點與blast 不同。
2、在基因對基因組的
比對中,block 的個數不能等同於exon 的個數。因為blat 對block的定義是一個沒有插入缺失的比對,任何 插入或者缺失的鹼基都會使一個block 終止,所以一個exon 很可能是由很多blocks 構成的。因此exon 和intron 的個數 要通過足夠大的gap 來判斷。3、psl 結果裡面鹼基位置的計算是從0 開始的而不是1。
推薦閱讀:
※測序之前篇: NGS測序中,接頭是如何添加上的,以及如何去接頭
※生物信息學100個基礎問題——第11~15題 答案公布
※RNA-seq原始數據質控後,是否要合併PE和SE的比對結果|《解螺旋技術交流圈》精華第1期
※R語言入門5:數據變形-Tidyr
※R語言入門4:數據框元素的提取和作圖