大家怎麼看利用 miRNA 靶基因預測軟體進行靶基因預測?它的準確程度怎麼樣?預測的靶基因是 miRNA 真正靶基因的可能性有多大?

最近用RNAhybrid預測miRNA的靶基因會出現很多基因(還有同一個基因甚至有幾十個位點)


感謝邀請我回答。

---

「大家怎麼看……?……準確程度……?預測的……可能性有多大?」 這種問題最開始被你自己提出來,自己其實心裡有數,我不想多解釋。

---

#現有工具

預測miRNA調控的基因,有不少工具程序。RNAhybrid是其一。用的比較廣泛的有miTarget(http://www.biomedcentral.com/1471-2105/7/411/),microTAR(http://tiger.dbs.nus.edu.sg/microtar/),TargetSCAN(http://www.targetscan.org/)。若是覺得不靠譜,你可以多用幾種工具來預測。

#友情提示:純·工具預測 絕對不靠譜

實驗手段其實也挺豐富的,比如PAR-CLIP(http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2861495/?tool=pmcentrez),甚至CLIP-seq(http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2733940/?tool=pmcentrez)

---

默默祝好


居然有 17 個邀請了。

不是干具體這個 miRNA 的,只給兩個建議

一個是找相關的比較研究做個參考。在網上搜了一下,找到一個比較研究:

Y. Zhang and F. J. Verbeek. Comparison and integration of target prediction algorithms for microrna studies. J Integr Bioinform, 7(3), 2010.

http://journal.imbio.de/articles/pdf/jib-127.pdf

一個是根據自己的研究對像,選公認的已知的 miRNA 和它的靶點,看這算能否找到,specificity 有多大。

因為到頭來,預測結果應該不是你的最終目的,你的最終目的,或許是提出新的靶點假設,指導你實驗什麼的,所以對這些軟體的衡量標準,是因著你的需要而定的。


正好答為什麼之前普遍認為miRNA與基因的結合位點在3『UTR上?,順便搜了搜相關問題水一下

現在的預測軟體大部分還在用種子區seed region

可miRNA的結合位點真的是seed region嗎?

這篇文章http://www.ncbi.nlm.nih.gov/pubmed/23622248表示不服

這篇用的是熱力學方法預測miRNA-mRNA的interaction,通過聚類分析,把miRNA上結合位點分了幾類,發現seed region所佔比例其實並不算那麼大(左側為1nt,右側為miRNA末端)所以……演算法還要加強啊。

不知道最近有沒有啥好用的工具?


除了miRNA-mRNA配對規律本身之外,細胞內其他因素影響也很複雜,比如mRNA上該位點的二級結構、是否有其他蛋白結合等、miRNA及其預測靶基因的表達量(比例不合適檢測不到調控效果)。而這些因素恰恰是生物信息學預測軟體不會考慮的。

我曾經突變過50多個預測出的miRNA位點,比較突變之後基因表達水平變化。只有不到20%有明顯變化。當然了,這個實驗是在報告基因過表達的條件下做的,所以比較弱的miRNA結合位點應該體現不出來。


兩年前,為了改進現有的miRNA預測演算法,我專門挑了兩個本質上互補的預測演算法,寫過一個軟體,揉合兩種演算法:

1. TargetScan 該演算法特點主要考慮了3個特徵:(1) 2D結構(Seed區類型與 第13~16位互補情況), (2) Seed區附近AU含量和(3)在UTR中所處的相對位置。以及UTR的相對保守性。以上述特徵該演算法又結合了表達數據做了一次簡單線性擬合,最後給出context與context+分值作為預測指標。該演算法缺陷在於從一開始就移除非完美匹配和Offset 6mer等稀有Seed類型。在犧牲假陰性的前提下,大大降低了假陽性。

2. miranda 這個演算法一開始就是熱力學自由能和鹼基互補考慮的。這個演算法本質上可以capture任何類型的互補,但由此也大大提高了假陽性率。

當時寫這個軟體初衷是希望一方面儘可能的保留細節(可以提供各種內部打分細節),另一面也想對各種演算法取長補短,給個直觀點的圖形展示。

但最後市場反饋,好像反響平平。因為絕大部分客戶只是葉公好龍,他們想要的只是一個簡單的「是」或「不是」的結論,但生信從來不是做這種事情的。絕大部分生物大分子的結合互作,不是505膠水,而是個動態的解離平衡。結構差一些吧,它可能結合的更不穩定些。

最後,如果你自己有能力寫一些腳本,並且不滿意miRNA資料庫的現有結果,一個簡單且可行的思路是,去用miranda程序跑一次你要得序列(5UTR,CDS區,3『UTR都可以包括,coding基因也好,lncRNA也好也都可以),然後去與CLIP-seq數據的peak區間取交集。不願意寫程序的話,也可以去查中山大學搞的Starbase,基本原理也和上面差不多。


演算法比較多,不過,由於miRNA序列比較短,能找到的靶點假陽性比較多。特別是,多種演算法的預測交集的結果也很少。其實預測也就是縮小下實驗的範圍。


準確度全是玄學,很多演算法都需要改進

RNAhybrid這東西比較過時了,預測準確率很低

miRanda問題是false positive,單獨用的結果也是比較呵呵

解決方法上面也有人講了,用多資料庫去找交集,一定程度上可以提高準確率

話說兩年前的你乎的專業水平和氛圍還真是棒啊


microRNA(miRNA)是一類長22 nt左右的內源非編碼小RNA,廣泛存在於動物、植物和病毒等物種中。1993年,Lee等人首先在秀麗線蟲體內發現了首個miRNA lin-4,進一步研究表明,lin-4 RNA通過與lin-14基因3′ UTR特異性結合降低LIN-14蛋白的表達水平。

miRNA基因通常位於基因間或內含子區域,由RNA聚合酶Ⅱ轉錄產生pri-miRNA, pri-miRNA具有帽子結構和多聚腺苷酸尾巴,pri-miRNA在核酸酶Drosha作用下切割生成70nt左右的pre-miRNA,核酸酶Dicer切割pre-miRNA最終生成22nt左右的miRNA單鏈分子。成熟的miRNA分子與Argonaute等蛋白形成RNA誘導的沉默複合體(RISC)抑制靶基因表達。

miRNA通過與靶基因mRNA部分互補配對在轉錄後水平抑制靶基因表達,研究表明,miRNA參與包括細胞增殖、凋亡、分化、代謝、發育和腫瘤轉移等各種生物學過程。但miRNAs與其靶基因並非完全匹配,這給確定miRNA靶基因帶來難度。科研人員通過分析已知miRNA及其靶基因,發現如下重要特徵:靶基因3′ UTR區具有與miRNA 5′端至少7個連續核苷酸的完全配對區域(2-8nt),miRNA的該部分序列稱為「種子」序列,mRNA與miRNA種子序列互補的區域在物種中經常具有保守性。

研究人員根據對miRNA及其靶mRNA特徵的認識,開發了相應的計算機軟體推斷miRNA的靶基因。以下對miRNA靶基因預測軟體做幾個簡要的介紹。

1、 序列互補性

位於miRNA 5′端所謂種子序列(第2-7nt)與靶基因3′ UTR可形成Watson-Crick配對是所有miRNA靶基因預測的最重要因素。多數情況下為7nt匹配:第2-7nt與靶基因呈互補配對,外加在靶基因對應miRNA第一位核苷酸處為A(7mer-1A site),或是miRNA第2-8nt與靶基因完全配對(7mer-m8 site);而對於miRNA第2-8nt與靶基因完全配對,且外加靶基因對應miRNA第一位核苷酸處為A(8mer site)這種類型,其特異性更高;而對於僅miRNA第2-7核苷酸與靶基因完全配對(6mersite)這種方式,其用於搜索靶基因的敏感性更高,但特異性相應下降。

2、 序列保守性

序列保守性:miRNA結合位點在多個物種之間如果具有保守性,則該位點更可能為miRNA的靶位點。

3、 熱動力學因素

miRNA:target對形成的自由能,自由能越低,其可能性越大。

用於miRNA靶基因預測的軟體種類較多,包括miRanda, PicTar, TargetScan(S), DIANA-microT 3.0, PITA, rna22,TarBase, miRBase等。軟體側重點不同,預測能力可謂各有千秋。選擇靶基因預測軟體時可以重點選取兩個,輔助添加一兩個。一般而言,不同軟體的預測交集具有更好的特異性。

友情提示,microRNA結合位點的預測畢竟只是預測,它永遠代替不了直接的實驗證據,它只能給您提供一個研究方向,而且這個方向不敢保證一定正確,只是正確的概率會比其它方向大而已。


其實這些都只是一些輔助方法,所謂用這些軟體預測的基因都要經過大量的驗證。很多文章的實驗過程都說明了這一點。我們對miRNA的調控方式也還存在很多的空白,所以,工作量bench work什麼的還是主要的。。。。


這個提問的方式真不學術……

一個miR預測出來成百上千個結果不是很正常的嘛?

我2011年下半年做過個小研究,比較了當時流行的或者流行過的十來種miR靶基因預測工具,也讀了十幾篇相關paper,有原始的演算法文章也有綜述性質的文章。當時還拿miRTarbase的數據做過個簡單比較,結論是綜合考慮①結果的數量②假陽性和假陰性的可接受的程度,那麼TargetScan是最好的。但TS受物種限制太嚴重,且當時miRTarbase里的數據很少,很多還是來自microarray的weak evidence data。

所以我的看法是:別太折騰了,沒什麼用——一切都是概率呀哇吼吼。

最後要說一句,這個問題沒有知乎的范兒倒是像應屬於百度知道。


推薦閱讀:

引物設計,so tricky
沒有基因組的參考序列可以做lncRNAs嗎?
細胞質中含有RNA酶,它是怎麼做到只分解那些需要分解的RNA的?
丙肝病毒是如何傳染的?傳染性如何?
為什麼核糖體蛋白是單拷貝基因編碼?

TAG:基因 | 生物學 | RNA | 分子生物學 |