沒有基因組的參考序列可以做lncRNAs嗎?
要做的不是模式物種,沒有全基因組參考序列,可以做lncRNAs嗎?如何設計實驗?
謝邀!上面我覺得已經回答的比較全面了,我再補充一下。在沒有參考基因組(Reference Sequence)的情況下,預測lncRNA其實和預測mRNA一樣,只不過最後要通過某些手段排除它的編碼能力(Coding Potential)。在這種情況下有幾種方式去預測:(1)如上所說,尋找近緣已知物種的基因組序列作為參考基因組,比如用人的基因組猴子的進行預測;(2)使用已有的cDNA序列作為參考基因組,這個好像在植物中做的比較多;(3)進行de novo直接拼接,比如使用類似trinity等軟體。對於coding potential的鑒定,技術上除了phyloCSF、CPC、CPAT等預測軟體外還有比如ribosome profiling等高通量手段。
不能簡單用能不能做來回答。如果說識別lncRNA,理論上是可以的。但識別只是第一步,之後需要做很多後續的功能研究,沒有基因組很多assay都不是很容易做,比如lncRNA和histone的interaction,lncRNA和蛋白質的interaction。
最早guttman發現lncRNA的方法是找H3K4me3-H3K36me3的domain,然後用phyloCSF算coding potential. 這個方法如果沒有基因組ChIP-Seq肯定沒法做。之後成熟的方法是做RNA-seq,然後用cufflink拼轉錄本,再用phyloCSF算coding potential。沒有reference不能用傳統方法拼接轉錄本,只能嘗試一些非reference-based的方法,但是可靠性就下降很多。另外,phyloCSF也需要本物種的gene序列做training,如果沒有基因組只能用近似物種,同樣可靠性也下降很多。所以要找可以找,但有多靠譜就不好說了。
具體參考guttman 09年最早的文獻,通過chromatin找的,http://www.ncbi.nlm.nih.gov/pubmed/19182780,和後來在人類裡面通過cufflink拼接找的,http://www.ncbi.nlm.nih.gov/pubmed/21890647。
題主又問到了後續分析的問題,把回復的評論一起貼一下完整一點。
lncRNA目前的功能推測的有幾類,一是作為scaffold,二是結合抑制轉錄,三是組蛋白修飾調控。具體可以參加這篇review.
Guttman M and Rinn JL. (2012). Modular Regulatory Principles of Large Non- coding RNAs. Nature 482(7385):339-46
可以考慮看錶達,先看錶達pattern,再通過mRNA的共表達推斷lncrna的功能,或者通過保守性分析在相似物種中尋找同源區域推測功能。還可以看前後DNA的motif,推斷是否被特定的TF調控。或者分析保守性,也是對功能的一種conform。
進一步的實驗可以通過clip seq找lncrna bind 的protein,或者通過chart seq找lncrna結合的dna區域。 clip seq參見http://www.ncbi.nlm.nih.gov/m/pubmed/?term=lincRNAs+act+in+the+circuitry+controlling+pluripotency+and+differentiation。 chart seq參見http://m.sciencemag.org/lookup/resid/science.1237973?view=abstracturitype=cgiijkey=730/SjLaIbBzYkeytype=refsiteid=sci 基本的共表達分析流程在09年guttman的文章裡面很清楚,Zhaoyi組在nar也有一篇通過network推斷的。
另外 @王君yi 提到的機器學習尋找lncRNA,是更全面的方法,在沒有reference的情況下更實用。但提醒兩個值得注意的問題。一是在沒有reference的情況下一些feature set很難做,比如RNA-seq就沒辦法做了。另一個是需要positive data,這個沒有reference的話用其他物種不知道是否靠譜。我補充一點,可以通過svm等統計模式識別的方法預測lncRNA哦~
以前做過這個,也許是樣本量太小的原因,正確率有點堪憂……不過富集一下姑且還能湊合用大概就像這樣http://www.ncbi.nlm.nih.gov/pubmed/23028655推薦閱讀:
※細胞質中含有RNA酶,它是怎麼做到只分解那些需要分解的RNA的?
※丙肝病毒是如何傳染的?傳染性如何?
※為什麼核糖體蛋白是單拷貝基因編碼?
※在胚胎髮育早期可檢測到ngn3的mRNA和蛋白,但在晚期僅能檢測到其mRNA而檢測不到蛋白這是為什麼?