生物信息學100個基礎問題 —— 第23題 轉錄組的比對與基因組的比對有何不同?
Hello大家好!我們今天又見面了!
我們通過前期的22個問題,從數據的簡單質控,到測序數據的mapping,再到mapping後的SAM文件都有了一個比較清楚的認識。那麼說了半天的mapping問題,一直都是在以DNA進行舉例,RNA的比對我們都還沒有談。那麼今天我們就來簡單談談RNA序列的mapping,尤其是真核生物的RNA序列比對。
1. RNA與DNA結構的不同
一般來說,DNA的mapping比較容易,因為DNA在基因上是連續的,直接回貼到基因組就可以找到相應的定位。就比如我們常用的Whole Genome Sequence(WGS)即全基因組測序;或者是我們所說的ChIP-Seq即染色體免疫共沉澱測序都是直接對DNA進行建庫測序,其測序結果都是FASTQ文件,直接用bowtie2,bwa比對到基因組就可以拿到標準的SAM文件。
但是RNA就不一樣了,真核生物的RNA需要經過複雜的加工過程。在細胞中RNA層面的調控至少可以分成2個大的階段co-transcription(轉錄的同時) 和 post-transcription(轉錄以後)其中的調控機制也有很多。
對我們mapping影響最大的因素是:真核生物轉錄出來的初步的mRNA都是帶有intron(內含子)的,隨後都需要在co-transcription(轉錄的同時) 或post-transcription(轉錄以後)階段通過:1. alternative splicing(可變剪切)剪切掉intron;2.polyA尾巴; 3.加5的帽子結構。這3個步驟,將不成熟的mRNA變為最終成熟的mRNA再轉運出核,行使功能。
而我們在進行RNA-Seq建庫的時候,一般情況下都是使用oligo dT針對帶polyA尾巴的成熟mRNA進行富集,然後再進行反轉錄獲得cDNA,之後再使用cDNA進行建庫測序。所以,我們最終得到的測序結果是與成熟mRNA序列保持一致的,只包含了exon的序列。而exon在基因中間是有intron分割的,因此在回貼回基因組的時候,回遇到跨越intron的reads回貼。所以這個問題不能使用原來針對DNA的mapping策略進行mapping。
2. RNA比對的常用軟體
目前大家最常用的轉錄組比對軟體有下面幾個:
- tophat2,應用最廣泛的比對軟體,但是速度很慢,已經基本被淘汰了,大約需要4~5G內存就能運行;
- hisat2,tophat2的原班人馬搞得新一代轉錄組比對軟體,比對速度大大提高,我強烈推薦,大約需要4~5G內存就能運行;
- STAR,非常適合於大量數據的並行計算,速度非常快,對於同時有參考基因組和參考轉錄組的物種,比對的準確率很高,不過index很大,至少需要30G以上內存才能運行。
3. 提出問題
問題1:如果你有一套標準的polyA捕獲得到的RNA-Seq測序數據,對reads進行了前處理工作與質量控制工作,但是你的比對策略為:先嘗試mapping,把能mapping到基因組上的reads都先mapping;然後把不能進行mapping的reads進行一定規則的拆分,再進行第二輪mapping,從而解決跨intron區域的問題(以上為tophat的mapping策略)。請問,這樣mapping的最大問題是什麼?(提示,需要知道一些假基因的概念!)
問題2:在human中,是不是所有的蛋白基因(protein coding gene)都含有intron?
問題3:在human中,是不是所有的蛋白基因的成熟mRNA都有polyA尾巴?
另外,希望大家多多支持我們的生物信息學知乎Live,每一期都很用心準備!
購買其中任意1次生物信息學知乎Live都可以加入到我們的生物信息學交流群!
注意!入群的時候需要提交1個申請信息,申請信息的內容在每次生信知乎Live的最最下面!
知乎 Live 鏈接-生物信息學-孟浩巍
推薦閱讀:
※從安裝到基本設置——Win10子系統入門簡明教程
※生物信息學100個基礎問題——第6~ 10題 答案公布
※如何用DBN做回歸——對我之前提問的解答以及用DBN做回歸的
※初識GATK
※【生信菜鳥經】漫談如何跨越擺在生信入門路上的三大障礙