如何研究inferring networks和mining RNA seq network?

生物信息學 數據挖掘 RNA-seq


國際上有一個叫DREAM(Dialogue for Reverse Engineering Assessments and Methods)的項目,試圖提供一組標準的數據(包括真實數據和模擬數據),來測試不同基因調控網路推斷演算法的表現。不過經過幾年的發展,也衍伸出測試別的目的的演算法。可以參考他們的論文。

鏈接:http://dreamchallenges.org/

附幾篇曾經讀過的經典文獻,都是利用表達譜數據推斷調控網路的:

  1. Dynamic regulatory network controlling TH17 cell differentiation

  2. Large-Scale Genetic Perturbations Reveal Regulatory Networks and an Abundance of Gene-Specific Repressors

另外說一下個人觀點。大規模地發現基因調控網路是系統生物學中極其重要的問題。利用基因表達譜來推斷調控網路是目前為數不多的可行方法。但這種方法有幾個局限性:

  1. 大部分時候使用的是轉錄組而非蛋白組數據(從你的描述來看,你也是),但除了一些ncRNA,絕大多數編碼蛋白的RNA本身並不參與調控活動,其表達水平和蛋白水平的相關性也很差。因此推斷出的網路只在RNA水平上有意義,在蛋白水平上的意義存疑。
  2. 目前沒有一個演算法是普適的,或者說在大多數情況下靠譜的。詳情請參看DREAM的論文:Wisdom of crowds for robust gene network inference。
  3. 即使發展出了靠譜的演算法,推斷出的網路也是唯象的(Phenomenological)。例如你推斷出基因A正調控(促進)基因B,但實際上A可能通過一個相當間接的方式促進了B,中間隔了N個基因。因此推斷出的網路究竟有多大的指導意義,這個只能呵呵。

但這確實是一個很fancy的方向,很容易唬人(但說白了也只是唬人而已)。


是說通過RNAsequence,解釋它的功能,作用?尋找functional/structural motifs? 我知道現在科學家對RNA的廣義功能很感興趣。比如表達控制啦,表達抑制啦。


推薦閱讀:

2013年是否有可用的「基於互聯網大數據的風險評估模型」?
請教如何做用戶行為路徑分析?用python或者R實現!
一個有三年工作經驗的優秀數據分析師所具備的能力有哪些?怎麼衡量?從哪幾個方面?
了解關於系統推薦演算法的知識,有什麼好的資源推薦?

TAG:數據挖掘 | 生物學 | 生物信息學 | RNA |