大家怎麼看利用 miRNA 靶基因預測軟體進行靶基因預測?它的準確程度怎麼樣?預測的靶基因是 miRNA 真正靶基因的可能性有多大?
最近用RNAhybrid預測miRNA的靶基因會出現很多基因(還有同一個基因甚至有幾十個位點)
感謝邀請我回答。---「大家怎麼看……?……準確程度……?預測的……可能性有多大?」 這種問題最開始被你自己提出來,自己其實心裡有數,我不想多解釋。---
#現有工具
預測miRNA調控的基因,有不少工具程序。RNAhybrid是其一。用的比較廣泛的有miTarget(http://www.biomedcentral.com/1471-2105/7/411/),microTAR(http://tiger.dbs.nus.edu.sg/microtar/),TargetSCAN(http://www.targetscan.org/)。若是覺得不靠譜,你可以多用幾種工具來預測。#友情提示:純·工具預測 絕對不靠譜實驗手段其實也挺豐富的,比如PAR-CLIP(http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2861495/?tool=pmcentrez),甚至CLIP-seq(http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2733940/?tool=pmcentrez)---默默祝好居然有 17 個邀請了。
不是干具體這個 miRNA 的,只給兩個建議
一個是找相關的比較研究做個參考。在網上搜了一下,找到一個比較研究:
Y. Zhang and F. J. Verbeek. Comparison and integration of target prediction algorithms for microrna studies. J Integr Bioinform, 7(3), 2010.http://journal.imbio.de/articles/pdf/jib-127.pdf
一個是根據自己的研究對像,選公認的已知的 miRNA 和它的靶點,看這算能否找到,specificity 有多大。
因為到頭來,預測結果應該不是你的最終目的,你的最終目的,或許是提出新的靶點假設,指導你實驗什麼的,所以對這些軟體的衡量標準,是因著你的需要而定的。正好答為什麼之前普遍認為miRNA與基因的結合位點在3『UTR上?,順便搜了搜相關問題水一下
現在的預測軟體大部分還在用種子區seed region
可miRNA的結合位點真的是seed region嗎?這篇文章http://www.ncbi.nlm.nih.gov/pubmed/23622248表示不服這篇用的是熱力學方法預測miRNA-mRNA的interaction,通過聚類分析,把miRNA上結合位點分了幾類,發現seed region所佔比例其實並不算那麼大(左側為1nt,右側為miRNA末端)所以……演算法還要加強啊。不知道最近有沒有啥好用的工具?除了miRNA-mRNA配對規律本身之外,細胞內其他因素影響也很複雜,比如mRNA上該位點的二級結構、是否有其他蛋白結合等、miRNA及其預測靶基因的表達量(比例不合適檢測不到調控效果)。而這些因素恰恰是生物信息學預測軟體不會考慮的。我曾經突變過50多個預測出的miRNA位點,比較突變之後基因表達水平變化。只有不到20%有明顯變化。當然了,這個實驗是在報告基因過表達的條件下做的,所以比較弱的miRNA結合位點應該體現不出來。
兩年前,為了改進現有的miRNA預測演算法,我專門挑了兩個本質上互補的預測演算法,寫過一個軟體,揉合兩種演算法:
1. TargetScan 該演算法特點主要考慮了3個特徵:(1) 2D結構(Seed區類型與 第13~16位互補情況), (2) Seed區附近AU含量和(3)在UTR中所處的相對位置。以及UTR的相對保守性。以上述特徵該演算法又結合了表達數據做了一次簡單線性擬合,最後給出context與context+分值作為預測指標。該演算法缺陷在於從一開始就移除非完美匹配和Offset 6mer等稀有Seed類型。在犧牲假陰性的前提下,大大降低了假陽性。
2. miranda 這個演算法一開始就是熱力學自由能和鹼基互補考慮的。這個演算法本質上可以capture任何類型的互補,但由此也大大提高了假陽性率。
當時寫這個軟體初衷是希望一方面儘可能的保留細節(可以提供各種內部打分細節),另一面也想對各種演算法取長補短,給個直觀點的圖形展示。但最後市場反饋,好像反響平平。因為絕大部分客戶只是葉公好龍,他們想要的只是一個簡單的「是」或「不是」的結論,但生信從來不是做這種事情的。絕大部分生物大分子的結合互作,不是505膠水,而是個動態的解離平衡。結構差一些吧,它可能結合的更不穩定些。
最後,如果你自己有能力寫一些腳本,並且不滿意miRNA資料庫的現有結果,一個簡單且可行的思路是,去用miranda程序跑一次你要得序列(5UTR,CDS區,3『UTR都可以包括,coding基因也好,lncRNA也好也都可以),然後去與CLIP-seq數據的peak區間取交集。不願意寫程序的話,也可以去查中山大學搞的Starbase,基本原理也和上面差不多。
演算法比較多,不過,由於miRNA序列比較短,能找到的靶點假陽性比較多。特別是,多種演算法的預測交集的結果也很少。其實預測也就是縮小下實驗的範圍。
準確度全是玄學,很多演算法都需要改進
RNAhybrid這東西比較過時了,預測準確率很低miRanda問題是false positive,單獨用的結果也是比較呵呵解決方法上面也有人講了,用多資料庫去找交集,一定程度上可以提高準確率話說兩年前的你乎的專業水平和氛圍還真是棒啊microRNA(miRNA)是一類長22 nt左右的內源非編碼小RNA,廣泛存在於動物、植物和病毒等物種中。1993年,Lee等人首先在秀麗線蟲體內發現了首個miRNA lin-4,進一步研究表明,lin-4 RNA通過與lin-14基因3′ UTR特異性結合降低LIN-14蛋白的表達水平。
miRNA基因通常位於基因間或內含子區域,由RNA聚合酶Ⅱ轉錄產生pri-miRNA, pri-miRNA具有帽子結構和多聚腺苷酸尾巴,pri-miRNA在核酸酶Drosha作用下切割生成70nt左右的pre-miRNA,核酸酶Dicer切割pre-miRNA最終生成22nt左右的miRNA單鏈分子。成熟的miRNA分子與Argonaute等蛋白形成RNA誘導的沉默複合體(RISC)抑制靶基因表達。
miRNA通過與靶基因mRNA部分互補配對在轉錄後水平抑制靶基因表達,研究表明,miRNA參與包括細胞增殖、凋亡、分化、代謝、發育和腫瘤轉移等各種生物學過程。但miRNAs與其靶基因並非完全匹配,這給確定miRNA靶基因帶來難度。科研人員通過分析已知miRNA及其靶基因,發現如下重要特徵:靶基因3′ UTR區具有與miRNA 5′端至少7個連續核苷酸的完全配對區域(2-8nt),miRNA的該部分序列稱為「種子」序列,mRNA與miRNA種子序列互補的區域在物種中經常具有保守性。
研究人員根據對miRNA及其靶mRNA特徵的認識,開發了相應的計算機軟體推斷miRNA的靶基因。以下對miRNA靶基因預測軟體做幾個簡要的介紹。
1、 序列互補性
位於miRNA 5′端所謂種子序列(第2-7nt)與靶基因3′ UTR可形成Watson-Crick配對是所有miRNA靶基因預測的最重要因素。多數情況下為7nt匹配:第2-7nt與靶基因呈互補配對,外加在靶基因對應miRNA第一位核苷酸處為A(7mer-1A site),或是miRNA第2-8nt與靶基因完全配對(7mer-m8 site);而對於miRNA第2-8nt與靶基因完全配對,且外加靶基因對應miRNA第一位核苷酸處為A(8mer site)這種類型,其特異性更高;而對於僅miRNA第2-7核苷酸與靶基因完全配對(6mersite)這種方式,其用於搜索靶基因的敏感性更高,但特異性相應下降。
2、 序列保守性
序列保守性:miRNA結合位點在多個物種之間如果具有保守性,則該位點更可能為miRNA的靶位點。
3、 熱動力學因素
miRNA:target對形成的自由能,自由能越低,其可能性越大。
用於miRNA靶基因預測的軟體種類較多,包括miRanda, PicTar, TargetScan(S), DIANA-microT 3.0, PITA, rna22,TarBase, miRBase等。軟體側重點不同,預測能力可謂各有千秋。選擇靶基因預測軟體時可以重點選取兩個,輔助添加一兩個。一般而言,不同軟體的預測交集具有更好的特異性。
友情提示,microRNA結合位點的預測畢竟只是預測,它永遠代替不了直接的實驗證據,它只能給您提供一個研究方向,而且這個方向不敢保證一定正確,只是正確的概率會比其它方向大而已。
其實這些都只是一些輔助方法,所謂用這些軟體預測的基因都要經過大量的驗證。很多文章的實驗過程都說明了這一點。我們對miRNA的調控方式也還存在很多的空白,所以,工作量bench work什麼的還是主要的。。。。
這個提問的方式真不學術……
一個miR預測出來成百上千個結果不是很正常的嘛?我2011年下半年做過個小研究,比較了當時流行的或者流行過的十來種miR靶基因預測工具,也讀了十幾篇相關paper,有原始的演算法文章也有綜述性質的文章。當時還拿miRTarbase的數據做過個簡單比較,結論是綜合考慮①結果的數量②假陽性和假陰性的可接受的程度,那麼TargetScan是最好的。但TS受物種限制太嚴重,且當時miRTarbase里的數據很少,很多還是來自microarray的weak evidence data。所以我的看法是:別太折騰了,沒什麼用——一切都是概率呀哇吼吼。最後要說一句,這個問題沒有知乎的范兒倒是像應屬於百度知道。推薦閱讀:
※引物設計,so tricky
※沒有基因組的參考序列可以做lncRNAs嗎?
※細胞質中含有RNA酶,它是怎麼做到只分解那些需要分解的RNA的?
※丙肝病毒是如何傳染的?傳染性如何?
※為什麼核糖體蛋白是單拷貝基因編碼?