標籤:

如何理解基因富集分析以及富集的意思?


推薦一個博文,講的挺清楚的:

enrichment analysis


基因富集分析是分析基因表達信息的一種方法,富集是指將基因按照先驗知識,也就是基因組注釋信息進行分類。

人類有約30,000個基因,人與人之間的基因序列相似度高達99.9%,也就是說,人們相互之間僅有30個基因的差別,而正是這大約30個基因的差別,導致了我們長得不同,性格也不同。

舉這樣一個例子,我發現規律的作息與適當的運動讓我智商變高了,我想知道讓我智商變高了的基因是哪些?那麼我取之前作息混亂,成天堆坐在電腦前的基因表達數據和智商提高了之後的表達數據直接對比進行分析是不是就可以了呢?這種方法也叫作單基因分析,這種方法的缺點包括:

  • 基因表達譜數據固有噪音很高,當兩組數據表達量差別不大時,很容易出現假陰性結果。(常用的表達譜測試方法包括microarray和mRNA-seq,各有利弊,前者前兩年很火,後者現在比較流行。具體原理方法、優缺點wiki上介紹的很清楚。)
  • 未考慮基因間相互作用,很難給出合理解釋,當對比之後,我發現50個基因不一樣,可是除此之外,我無法判斷這50個基因有什麼樣的聯繫?是什麼信號通路讓我智商變高了?知其然而不知其所以然。
  • 可重複性差,生物實驗一般都要求至少重複三遍,那麼第二次實驗的時候,很有可能不是50個基因,誰多誰少根本說不清楚。

考慮到這些缺點,2005年提出了基於基因集定義的基因富集分析方法,很多人管單基因分析叫bottom-up,富集分析叫top-down。

首先要定義基因集(gene set),也就是基於我們的先驗知識(基因組注釋信息),將基因富集,可以想像成,用一堆代表基因功能的箱子(bin)把具有相同或相似功能的基因裝起來,起到了降維的作用,當然,每個基因可能同時參與好幾種功能,這種cross-talk我這裡就不說了。

這樣,得到這兩組數據後,我們所分析的不是單個基因表達的差異,而是箱子與箱子之間的差異。比如我們發現,運動前後的主要差異集中在消化基因上面,那麼我就有理由說,規律作息和適當運動讓我消化變好、營養吸收充分進而智商提高(我編的,別信...)。由此,我們得到的數據更容易解釋。

以上僅個人理解,若有不妥,請告知^_^

參考文獻:

  1. 曹文君等,基因表達譜富集分析方法研究進展,生物技術通訊,2008

  2. Wiki: DNA microarray

  3. Wiki: RNA-Seq


推薦閱讀:

基因是否會因外部因素而進行修正?
我們課題組想買伺服器跑生物信息學的數據,有必要嗎?
學習生物信息學,需要怎樣配置的電腦?

TAG:生物信息學 |