生物信息百Jia軟體(八):blat

編者按

blat也是學習生物信息需要掌握的一款工具。blat與blast其實是不同的,雖然都是局部比對工具,但是blat實現了「多對一」的比對,也就是能將不同的外顯子定位到同一個基因上。我喜歡blat可以輸出多種比對格式結果的模式,默認是psl,但其實可以輸出blast同樣格式的結果,還有比較容易閱讀的axt格式結果。需要注意的是,blat的其實比對坐標與blast不同。

一、功能分類:

局部比對

二、軟體官網:

hgwdev.cse.ucsc.edu/~ke

三、軟體介紹:

Blat的全稱是The BLAST-Like Alignment Tool,可以稱為"類BLAST 比對工具",由W.James Kent於2002年開發。當時隨著人類基因組計劃的進展,把大量基因和ESTs 快速定位到較大的基因組上成為一種迫切的需求。

blast 對於這種比對需求有幾個缺陷:

1、速度偏慢;

2、結果難於處理;

3、無發表示出包含內含子的基因定位。

Blat比對軟體 就是在這種形勢下應運而生了。

另外,相對於blast,blat使用簡單,速度更快,而且不需要建庫過程,可以輸出多種比對格式的比對結果。

blat特別適合將基因、cds重新定位到染色體上,這個在轉錄組分析中非常有用。在真核生物中,mRNA在加工成熟過程中需要切出內含子,轉錄本也存在可變剪切,也就是假設一個基因有1234四個外顯子,那麼最終得到的cds可能是123,也可能是124,這是如果在將測序出來的轉錄本定位到基因組上,124三個外顯子需要分別定位到三個位子,如果是blast就會斷成3個比對,而blat卻會識別出這是一個比對,存在多個gap,很好了解決了轉錄本定位到基因組上的問題。

四、下載安裝:

unzip blatSuite.36.zip

五、軟體使用:

blat的有很多參數。但是大部分默認即可。blat可進行核酸水平的比對,也可以進行氨基酸水平的比對,同時也支持核酸翻譯到氨基酸水平的比對。

Blat 的輸入文件必須滿足fasta 格式,運行時非常簡單,不需要進行建庫就可以直接比對。

敲blat,然後接目標序列 ,query序列,然後是輸出文件名,但是順序不能寫錯了。這樣就可以開始比對了。

程序正常運行時,會在讀完database 中的所有subject 序列時在屏幕輸出database的統計結果。

blat的一些重要選項參數。

-noHead 不輸出表頭信息,這個在進行下一步軟體處理時比較方便,如果對格式很熟悉,不輸出以可以;

-out 選擇輸出格式。可以選擇lastz的axt格式,maf格式,wublast格式和blast m0 m8和m9格式。

-t

和-q和-prot參數指定比對的類型。blat也可以進行氨基酸比對和核酸在氨基酸水平比對。blast是通過-p指定比對類型,而blat則是通過分別指定query和subject的格式來解決這個問題。-t可以等於dna和prot蛋白質和dnax,-q可以等於dna,rna,prot,dnax和rnax等,如果需要核酸序列文件在氨基酸水平比對,那-t和-q都應該等於dnax,

氨基酸比對時間要慢一些。-prot指定二者都是氨基酸序列。

剩餘很多參數都是用來限制比對條件的,例如是否處理N鹼基Gap,重複序列,PolyA、比對字長、identity,比分等,可以根據具體比對進行調節。

六、使用案例:

blat ref.fna query.fna blat.outblat genome.fna gene.ffn -out=axt blat.out

七、結果解析:

程序默認輸出為psl格式的列表結果文件。

Psl

格式的結果包含了詳細的比對位置信息,每一列的意義都 在文件開頭列出。第1~8列是總體的比對統計,包括精確比對鹼基數、錯配、query

和subject上的gap個數總長等等;第9~17 列是比對位置信息,包括比對方向、query 和subject

的名字、長度、比對起止位置;18~21 列是顯示每一個精確比對的block 的信息,包括blocks

數、每個block的長度和在query、subject上的位置。

對於psl輸出結果,需要注意幾點。

1、blat 的結果在subject 上允許存在很大的gap(intron 區域),所以同一個結果在query和subjects 上覆蓋的區域可能會相差很多,這一點與blast 不同。

2、在基因對基因組的

比對中,block 的個數不能等同於exon 的個數。因為blat 對block的定義是一個沒有插入缺失的比對,任何

插入或者缺失的鹼基都會使一個block 終止,所以一個exon 很可能是由很多blocks 構成的。因此exon 和intron 的個數

要通過足夠大的gap 來判斷。

3、psl 結果裡面鹼基位置的計算是從0 開始的而不是1。


推薦閱讀:

測序之前篇: NGS測序中,接頭是如何添加上的,以及如何去接頭
生物信息學100個基礎問題——第11~15題 答案公布
RNA-seq原始數據質控後,是否要合併PE和SE的比對結果|《解螺旋技術交流圈》精華第1期
R語言入門5:數據變形-Tidyr
R語言入門4:數據框元素的提取和作圖

TAG:生物信息學 | 自然科學 | 生物學 |