生物信息學100個基礎問題 —— 第34題 做RNA-Seq的數據分析邏輯是怎樣的?

生物信息學100個基礎問題 —— 第34題 做RNA-Seq的數據分析邏輯是怎樣的?

來自專欄高通量測序技術30 人贊了文章

Hello 大家好!我們又見面了!

1. RNA-Seq專題相關問題

最近我們一直圍繞著RNA-Seq相關的專題在進行題設,我們不妨來回顧一下從BBQ100開始到現在若干個問題中與RNA-Seq有關的內容:

Mapping相關:

生物信息學100個基礎問題 —— 第23題 轉錄組的比對與基因組的比對有何不同?

GTF/GFF相關

生物信息學100個基礎問題 —— 第24題 GFF,GTF到底是什麼?

生物信息學100個基礎問題 —— 第25題 GTF/GFF的注釋是怎麼來的,應該從哪裡下載?

RNA-Seq建庫相關:

生物信息學100個基礎問題 —— 第31題 RNA-Seq建庫用哪種策略?

生物信息學100個基礎問題 —— 第32題 1個RNA-Seq樣本到底要測多少序列?

生物信息學100個基礎問題 —— 第33題 什麼是鏈特異性的RNA-Seq?

那麼,截止到今天,我們已經掌握了基本的RNA-Seq實驗原理,但是怎麼去分析,為什麼去分析,這其中的內在邏輯其實我們還沒有涉及到。因此,現在的我們如果跟著BBQ100走到今天,可能會有一點霧裡看花的感覺。因此,今天我們的任務,就是為大家理清做RNA-Seq分析的思路。

2. 為什麼要做RNA-Seq?

先來談談為什麼要做RNA-Seq。假設我們沒有RNA-Seq技術,當我們看到經過某1個條件/刺激/處理以後,我們的研究對象,細胞,植株,亦或是可愛的小白鼠有了一些變化。這個時候我們通過觀察和實驗得到了1個判斷:

當對A進行B刺激的時候會出現表型C。

當有了這個判斷以後,正常的推理思路是,表型的出現很大可能是由於研究對象的蛋白含量的變化引起的。而蛋白的含量最直接的控制就來自於gene表達的變化。如果我們能夠有辦法測量A在進行B刺激以後全部的gene表達變化的gene list D,理應能夠得到下一個判斷:

當對A進行B刺激的時候會出現表型C,而這個表型C造成的原因很有可能是來自於D這些基因的變化。

但是這裡有個問題,這個刺激需要是一種比較穩定的條件,比如對細胞系進行穩定敲除(knock out)一個gene;再比對用藥物持續對植株進行噴洒等等。而不能是,我向細胞盤吐了口唾液,然後立即建庫去測RNA-Seq。這是因此,我們在推斷表型C造成的原因的時候,認為是gene的表達造成的,而從信號響應,到最終的gene表達的變化是需要時間的。因此,刺激以後,過一段時間以後才會出現變化,一般這個時間間隔是以小時為單位計算的。

因此,當我們認為表型C和刺激B之間是由於gene list D影響的,那麼我們就要做RNA-Seq。

3. 為什麼能做RNA-Seq?

那麼,我們為什麼能做RNA-Seq?貌似是一個很簡單的問題,其實不然,這是幾十年技術的積累。讓RNA-Seq能夠走進「尋常百姓家「的原因有很多,能輕而易舉想到的:測序費用的降低;基因組的公布/相關物種基因組的公布;分子生物學技術的成熟等等。

想像一下,如果有一天我們突然不能做RNA-Seq了,那麼我們再去想做我們判斷的檢驗就可要1個gene挨著1個gene的去做qRT-PCR了!或者是做價格和準確不不如測序的micro array檢測。

4. 拿到數據以後我們應該做點什麼?

還是回到我們之前的判斷:

* 當對A進行B刺激的時候會出現表型C,而這個表型C造成的原因很有可能是來自於D這些基因的變化

核心問題是找到這個gene list D,而這個問題的本質就是去尋找對A進行B刺激前後的差異。那麼差異又可以分成幾個方向去尋找:

方向1. 表達量的差異;方向2. 可變剪切的差異;方向3. 修飾的差異;方向4. 其他可能存在調控機制的差異;

針對不同的方向去尋找差異,方法也是不同的,比如方向1,2,3的分析方法就有非常大的不同。而選定方向以後,尋找差異的思路又可以擴展開:

1. 差異與whole genome相比是否有一定的分布傾向性?2. 差異是個例還是具有普遍性?(更換細胞系是否能重複?)3. 差異與表型是否有統計學相關性?... ...

當我們確定了方向與尋找差異思路以後,最後一步就是去展示分析結果,說直白些就是數據可視化。好的圖表可以讓人一眼就看出差異所在,不用文字就知道作者要表達的意思。數據可視化這方面,有非常多的工具可以使用比如R就非常方便。

5. 提問環節

  1. 請對本文第4部分方向1,2,3進行舉例,比如通過XX條件,對XXX進行了XXX刺激,結果發現有若干gene的表達量發生變化,同時這些gene反映了XXX的生物學功能。需要給出paper的鏈接。
  2. 出了上述3個方向,你能否再舉出其他可以用RNA-Seq數據進行探索的方向呢?

另外,希望大家多多支持我們的生物信息學知乎Live,每一期都很用心準備!

購買其中任意1次生物信息學知乎Live都可以加入到我們的生物信息學交流群!

注意!入群的時候需要提交1個申請信息,申請信息的內容在每次生信知乎Live的最最下面!

孟浩巍的生物信息學-知乎Live


推薦閱讀:

精準醫療:4篇Nature奠定臨床新技術(表觀遺傳學)測序中國
【討論】WGCNA 分析中需要設定多少個模塊比較合理
單細胞數據分析資源分享 | single-cell RNA sequencing專欄
生物信息學100個基礎問題——第1~ 5題 答案公布
焦磷酸甲基化測序

TAG:生物信息學 | 分子生物學 | 測序 |