生物信息學100個基礎問題 —— 第16題 高通量測序的回貼問題 I

Hello大家好!我們又見面了!

昨天我們公布了生物信息學100個基礎問題第6~10題的答案,如果還沒有查看的老鐵請點擊下方的鏈接去看看~

生物信息學100個基礎問題——第6~ 10題 答案公布


在這之前,我們一直在討論怎麼去做FASTQ文件的質控,怎麼trim,怎麼cutadapt;還為大家介紹了從雙序列比對的最根本的原理及演算法;再到後來學習了低通量的找相似序列的辦法BLAST以及基因組快速定位的辦法BLAT。那麼從今天開始以後的若干問都是與高通量測序結果的回貼(mapping)問題有關。

首先來看一下技術路線圖:

圖1 從FASTQ到SAM路線圖

我們的核心任務是從FASTQ文件開始,經過中間的質控,最終找到序列在基因組上的定位。

那麼,我們之前的演算法和方法能不能高效完成這個問題呢,答案是不行的!因為這次我們的輸入常常是10^7 甚至更多的reads,而且是要在全基因組上尋找定位,比如人的基因組有3Gbp大!所以如果不優化演算法,估計mapping這個問題就要等到地老天荒。關於mapping的演算法問題,我之前錄過1期視頻,專門推導了為什麼應用BWT演算法就可以完成我們這項艱巨的任務。

踏踏實實做技術:BWA,Bowtie,Bowtie2的比對演算法推導


談完了演算法,我們再談談比對軟體。目前市面上針對DNA測序的結果mapping的比對軟體有很多。針對2代測序優化過的,最常用的有Bowtie,Bowtie2,BWA這三款;針對3代測序優化的比對軟體有BLASR,LAST,BWA-MEM等等。因為目前二代測序佔據了90%以上的市場份額,因此我們前期主要討論的內容是二代測序的比對問題,也就是Bowtie,Bowtie2,BWA這三款軟體。

其實,看過我上面BWT推導的朋友應該能夠知道,這三個軟體本質上的演算法是沒有區別的,有區別的地方都是小修小改。所以上,理解了其中的1個,其他的也都很好理解。我們會發現,這些演算法的最基礎的要點就是都要有1個index。那麼什麼是index呢?簡單來說就是若干個文件,方便我們快速地訪問及搜索基因組。上面我說的這些比對軟體都需要建立index。

一般建立index的輸入文件為參考基因組序列(FASTA格式)和1個我們指定的index-name;輸出為若干個以index-name為開頭的index文件。比如我們使用Bowtie2,以human reference genome建立index的命令為:

# build-index by Bowtie2> bowtie2-build hg19_only_chromosome.fa hg19_only_chromosome &# 解釋#### bowtie2-build為建立index的命令,安裝bowtie2以後就可以用;#### hg19_only_chromosome.fa 為human genome的參考基因組,FASTA格式;#### hg19_only_chromosome 為建立index需要指定的名稱;

最終建立index輸出結果如圖2:

圖2 使用bowtie2建立的human genome index


那麼今天的任務是,請觀看我的兩個視頻:

第1個視頻是介紹BWT演算法的及推導的;

  • 視頻鏈接:踏踏實實做技術:BWA,Bowtie,Bowtie2的比對演算法推導;

第2個視頻是介紹怎麼從UCSC genome browser上下載參考基因組然後構建index的;

  • 視頻鏈接:高通量測序技術交流錄像
  • 請觀看視頻的 24:45 - 41:00部分,參考基因組的下載與bowtie2 index的建立

那麼我們今天的問題是:

1. 為什麼FASTQ文件的快速比對需要建立index?

2. 如果我從1個網站上下載的是1個物種的參考轉錄組的序列,其中包含了A,U,C,G鹼基,我的FASTQ為該物種轉錄組測序的結果,用A,G,T,C,4種鹼基來表示。那麼需不需要在建立index之前把參考轉錄組中的U全部都換成T?

3. 請在Linux環境下,下載human genome 19參考基因組的1號染色體序列;並使用bowtie 建立index。

推薦閱讀:

生物信息學100個基礎問題 —— 第5題 測序建庫的adapter
南開大學師生解讀SARS病毒是否是生物武器
PCR duplicates in NGS - I
Analyzing RNA-seq data with DESeq2翻譯(3)
生物信息學習資源整理+備記

TAG:生物信息學 | 測序 |