【工具】IPA分析RNA-seq數據

上一章我們用 R package的FCROS處理了RNA-seq數據,導出的文件裡面除了有ri值(用於GSEA的pre-rank),還有:

  • FC: 實驗組平均值/對照組平均值
  • FC2:實驗組均值/對照組均值

以及f值和p值等統計學的數值。

IPA的官網建議導入的數據最好可以反應實驗組和對照組關係,比如倍數變化,比值,等等。

我們剛好可以利用之前處理好的數據(FC或者FC2)直接進行導入。如果沒有看上一章的同學,並且自己不想搞R的話,可以直接用excel去算一個實驗組/對照組的比值,至於用平均值還是用均值好,完全看個人喜好。均值可能會更好一些。

打開IPA,上傳數據(Ctrl+U)

把之前導出的XXX.txt文件直接導入IPA即可。

按照圖中選好。

這裡不得不吐槽,FCROS計算出來的FC雖然是Fold Change的縮寫,卻不是真正的倍數變化,而是Ratio(比值)。

所以注意這裡要選擇 Expr Ratio,後面就不用管了,因為IPA會自動把比值調整為倍數變化。

由於FC2和P值都是來自於同一批實驗,要確保兩個值都是在Observation1下面。

填好後,按Save, 成功導入。然後會出現這樣一個界面。

點擊右下的Analyze/Filter Datasets,選擇Core Analysis

接下來點擊Next, 開始設置Cutoff

IPA為了保證統計學有意義,建議Cutoff之後的基因不超過5000個,所以我這次Cutoff設置的比較狠,倍數變化設置為 -6 down 和 6 up; p值設置為0.01

設置好之後點擊Recalculate,看看基因數量有沒有變少。

最後就能點擊Run Analysis了。

經過漫長的等待,你的分析結果將能在IPA中Analysis的文件夾下面顯示出來,雙擊它,你就能看到分析數據了。如圖。

IPA主要用了Z Score來預測通路。

什麼是Z score?

Z score是一個可以預測通路被促進還是抑制的值。

舉個例子,TR是一個轉錄促進因子,可以上調一堆基因。如果在我的數據中,這裡面大部分的基因都上調,那麼Z值就高,反之。

如果TR是一個轉錄抑制因子,可以下調一堆基因的話,如果大部分基因都下調,那麼Z值就高,反之。

總而言之,Z值越高,這條通路就越被促進。Z值越低,這條通路就越被抑制。

上圖中,橙色的是EIF2信號通路,橙色代表正的Z值,顯然是被促進了;而底部藍色代表負值,說明這條通路被抑制了。灰色的代表50%被促進50%被抑制,所以無法斷定到底是上調還是下調。

這張圖中是對基因群上游轉錄因子的分析,也是通過Z值,看轉錄因子是被促進了還是被抑制了。

IPA中還可以看很多其它的東西,大家分析好之後可以點進去一一查看,相信會有不少收穫喲。

End.


推薦閱讀:

手把手教你生信分析平台搭建(一)
哪裡能買到《R語言與Bioconductor生物信息學應用》
生物信息學100個基礎問題 —— 第10題 讀懂FastQC報告之adapter與kmer
GATK4.0和全基因組數據分析實踐(上)
生信猿如何用好Mac高效工作

TAG:生物信息學 | 大數據分析 | 生物學 |