RNA-seq通過測定穩定狀態下的RNA樣品的序列來對RNA樣品進行研究,從而避免了許多之前研究手段的不足,比如象基因晶元或者 PCR就需要背景知識。而且RNA-seq還可以觸及以前無法研究的領域,比如複雜結構的轉錄體。
RNA-seq可以應用於以下幾個方面的研究,
1. SNPs;
2. novel transcripts;
3. alternative splicing;
4. RNA editing。
無論如何,使用RNA-seq最多的還是比較兩組樣品基因水平表達差異,比如野生型與突變型,用藥組與對照組,不同組織之間,癌細胞與正 常細胞,等等。我們把這種基因水平差異表達,簡稱為DE (differential expression)
常用的RNA-seq操作平台有Illumina 。它們都是提取RNA後,純化,打碎,逆轉錄成cDNA,然後測序。
測序的結果被稱為short reads,短序。通常一個短序的長度為25-300bp之間。
如果測序只測一端可能會帶來比對時的困難,於是這些操作平台提供了兩端都測的辦法,這樣的結果成對出現,中間有一定的間隔,但是因為測序長度一下子提高了一倍,所以比對會精準很多。人們把這種測序結果稱為『』paired-end『』reads,成對短序。一般來講,測序結果會直接轉換成一行一行的由字母組成的短序列,可能是fasta,fastq等等不同格式。
然而,這一技術產生的海量數據分析卻給生物學家帶來了難題。一個測序的結果文件少則幾Gb,多則幾十Gb,單獨對比拼接,就會用去幾個小時,而後再 得出差異表達的結果,其耗時耗力,並非實驗生物學家可以應付得了的。於是生物信息學的研究人員努力做出一些軟體,以降低結果分析的難度。但是,即使這樣, 還是必須對分析過程有個較為細緻地了解,才能正確地使用這些軟體,從而得到比較接近事實的結果。
一般的來講,RNA-seq後DE的工作流程是這樣的(圖1),首先,將短序映射到基因組相應的位置上去,其次,對映射的結果進行基因水平,外顯子 水平,以及轉錄水平的拼接,而後對結果進行數據統計,標準化之後生成表達水平報告文件,最後由生物學者依據系統生物學相關知識,來對數據結果進行分析。
RNA-seq分析工作流程
不同步驟涉汲的軟體和方法:
映射至基因組(Mapping)
第一步的工作是比對(alignment)。對於RNA-seq的比對,從來都不是一件容易的事情。其難點如下:
為了解決最後一個問題,人們使用了很多辦法,但基本上都會基於事先建立的引索庫。即所謂「啟發式」比對(heuristic match)。首先使用一定長度的(通常是11個鹼基)的序列做為索引用的關鍵字,在匹配這一索引字之後,就很大程度地縮小了其需要匹配的模板範圍。但是 這一辦法的問題在於不容易解決問題2中的空格,錯配問題。所以在很多軟體使用時,會要求人工確認高保真區,以及最高允許2-3個錯配。
現在比較快的「啟發式」比對主要有兩種演算法,一種是哈希表(hash table),一種是BW壓縮轉換(Burrows Wheeler transform, BWT)。前者速度快,但是對內存要求比後者要高。
對於問題3,一般而言,大部分軟體使用的辦法是只保留一個匹配位點,其中,有些是只保留第一個匹配位點,有些是按照概率分布選取保留的位點。當然,前面已經提到過,可以使用paired-end read來盡量避免問題3的出現。
對於問題1,可以使用外顯子庫來確定junction reads。有兩種辦法,一種是依靠已知的外顯子庫來構建,另一種辦法就是依據已經匹配好的短序來構建外顯子庫(de novo assembly of transcriptome)。後者的不足是運算量大,對測序覆蓋範圍要求高,最好是使用paired-end reads。
還有人發現,對於ploy(A)的處理會減少不能映身的短序數。比如,Pickrell et al.就發現,對於46bp的Illumina reads,87%的短序可以映射至模板,7%可以映射至junction library。如果對那些不能映射的短序,將在頭或者尾含有的超過連續4個的A或者T去除,就可以得到約0.005%的映射。
綜合評價(Summarizing mapped reads)
這一步,主要是基本於不同水平(外顯子水平,轉錄水平,或者基因水平)進行統計。最簡單的辦法就是統計落在每個外顯上的短序數。但是有研究表明,很多(可能超過15%)的短序會落在外顯子兩側,這會影響統計的結果。另一種辦法就是統會落在內顯子區域的短序數。
無論如何,即使是基因水平的綜合評價,也還是有其它的一些問題。比如overlapping的基因的統計。比如junction的統計。
標準化(Normalization)
標準化對於樣品內及樣品間的比較而言是非常重要的。標準化被分為兩類,樣品內及樣品間(between- and within-library)。
樣品內標準化使得在同一樣品內不得基因之間的表達差異變得有意義。最常用到的一個辦法就是使用落在同一基因內的短序數除以單位基因長度。比較常用的 單位是RPKM (reads per kilobase of exon model per million mapped reads)。但是這一方法也受到樣品製備和測序方法的干擾。
而對於樣品間標準化,最簡單而直接的辦法使用短序總數來平衡表達量。然而短序總數受測序深度的干擾,而且單個基因的短序數與實際的表達量並不一定會 呈線性比較關係。人們又使用四分位(quantile normlization)標準化的辦法。但是有研究說這一辦法並沒有實際的價值。還有提出使用對數分布法則(power law distributions)來進行樣品間標準化。但沒有研究對這一處理方式進行驗證。
差異表達(Differential expression)
差異表達分析的最終目的是將那些差異表達的基因(外顯子等等)從海量數據中提取出來。最終的結果顯示一般來說是表格化的,這一表格按照一定的規則排序,讓人們能夠儘可能簡單地拿到想要的結果。
由於RNA-seq結果的離散性,人們一般都會使用統計模型來擬合實驗得到的結果。一般而言,RNA-seq的結果是比較附合伯松分布 (poisson distribution)的。這一結果得到了單通道Illumina GA測序結果的實驗驗證。但是,伯松分布分析結果常常在多組重複的樣品間帶來較高的假陽性,因為它低估了生物取樣的樣品間誤差。所以RNA-seq如何設 置重複是一個很重要的問題。為了平衡重複樣品所帶來的誤差,人們使用了serial analysis of gene expression (SAGE) data。
現有的軟體一般都是針對較為簡單的實驗設計的。而對於複雜的實驗設計,比如說成對樣品,時間依賴樣品等等,還沒有專門的,較好的解決方案。大多數都使用edgeR的線性模型來進行分析。
後期系統生物學分析
簡單地講,前景是廣闊的,但目前為止手段還是比較有限的,基本上就是GO分析。
另外建議一下做RNA-seq的分析最好使用edgeR的泊松分布模型來做,DEGseq裡面用的都是二項分布的模型。
DESeq是一個R的程序包,它可以用來分析RNA-seq的高通量測序數據並且做差異性檢驗。
DESeq使用的模型基於負二項分布,有以下特點
1.Count data是離散傾斜的,所以不能夠用正態分布近似。所以基於負二項分布的統計檢驗(可以反應數據的特徵),有更強的檢測差異表達的能力。
2.在進行兩種實驗條件下的差異表達的統計檢驗,一定要考慮進去技術和生物的變異性。最近,一些學者認為Poisson分布更適合這個目的。但是,基於Possion假設(這包括二項式檢驗和卡方檢驗)卻忽視了生物樣本的變異性,導致了錯誤的樂觀的p值。負二項分布是一個Possion模型的一般化,這允許我們考慮正確對於生物變異性建模。
3.在前面的兩點,DESeq和之前的工具非常類似,尤其是edgeR。DESeq的一個新特徵是可以估計局部的變異,對於不同的表達丰度採用不同的變異參數,這就降低了在選擇差異基因的偏見,給出一個更加平衡和準確的結果。
4.DESeq的應用不僅僅局限於RNA-seq。它還可以用在其他很多種高通量實驗的count 數據上。
參考文獻
TAG:科技 |