標籤：

L36H RNA 生物信息學

mRNA-seq技術能篩除掉Pol II 轉錄的其他非編碼RNA嗎？

01-12

看了mRNA-seq技術的描述，是通過RNA尾部的Poly-A來篩選mRNA的，但是Pol II還轉錄很多非編碼的RNA，這些RNA尾部是不是也應該有Poly-A呢？如果這樣，那測mRNA的時候不可避免的會檢測到其它非編碼RNA?

普通的RNA-seq都會用oligo T去篩選出帶有ployA尾巴的mRNA去測序。所以測出來的RNA全是含有polyA尾巴的。對於非編碼RNA，有很多是有polyA尾巴的（可以參考今年cell綜述http://www.cell.com/abstract/S0092-8674(13)00759-9）。但也有不少是不帶polyA尾巴的（比如來自於intron的長非編碼RNA，參看文章http://www.cell.com/molecular-cell/abstract/S1097-2765(13)00590-X），對於這種不帶尾巴的早在2010年就有文章專門研究如何測序（參看文章http://genomebiology.com/2011/12/2/R16）。現在包括ENCODE等國際項目都在按照這篇文章做沒有polyA的RNA的測序。如果一個物種沒有標準的mRNA序列，也可以進行RNA-seq，然後對得到的序列進行拼接成轉錄本進行定量。另外一些最新的三代測序平台可以測出幾十k長度的RNA，所以不用拼接，直接就是轉錄本的序列。

首先我覺得這是個很有趣的問題。（吸引了周五下午五點在lab無所事事的我）

答案是不完全否定的。一般的mRNA-seq的技術會對mRNA進行富集，所以我們觀察到的絕大部分都應該是mRNA，但會有少量non-coding RNA保留下來。下面我們先從技術層面解釋一下這個問題，然後再從我的實際經歷來進一步說明。

（1）概念層面：

首先，我們要來解釋幾個概念，因為我自己對ncRNA沒有很自信的了解，為了不犯大錯，我「非常認真地」查了一下維基百科。

mRNA：Messenger RNA (mRNA) is a large family of RNA molecules that convey genetic information from DNA to the ribosome, where they specify the amino acid sequence of the protein products of gene expression. （From Wikipedia）

非編碼RNA：A non-coding RNA (ncRNA) is an RNA molecule that is not translated into a protein.（From Wikipedia, too）

mRNA和非編碼RNA最大的區別是會不會被翻譯。mRNA，會；非編碼RNA，不會。

mRNA和非編碼RNA相同點是，它們都會被RNA Pol II轉錄。（不然是從石頭裡蹦出來的嗎）

問題：「這些非編碼RNA的尾部是不是也應該有poly A呢？」

答案：不完全是。有一部分非編碼RNA沒有poly A，而有一部分有。

沒有polyA尾巴的非編碼RNA有miRNA（microRNA）。miRNA的前體pre-miRNA是有polyA尾巴的，但是在核內被處理，變成miRNA，同時也失去了它的尾巴。（miRNA (microRNA) Introduction）

有一些lncRNA長非編碼RNA是有polyA尾巴的（Noncoding RNA in development）。這些有polyA的lncRNA和mRNA在mRNA-seq的技術中被等同處理了。（但我們基本上沒有worry過這一部分RNA）

一些rRNA, tRNA和snRNA是由RNA polymerase I and III轉錄生成的，沒有polyA尾巴（Transcription by RNA polymerases I and III）。（但其實rRNA才是我們測序時最worry的部分）

（2）技術層面：

mRNA-seq的技術實現針對性富集mRNA是如何實現的呢？一般有兩種方法：poly A enrichment和rRNA depletion。

poly A enrichment一般可以用polyA beads去提純帶polyA的RNA，其中絕大多數是mRNA（這個絕大多數來自我分析數據的經驗，沒有文獻支持）。見下圖左二的bar。還有一種方法是用帶oligo dT的primers做RT，見於SMART-seq2，常被單細胞RNA測序使用。

rRNA depletion的一種實現方法是（RiboMinus? Technology）利用已知的rRNA序列和magnetic beads去去除rRNA。這個方法沒有poly A enrichment的富集mRNA的純度高。如下圖中間的bar，明顯intergenic和intronic的reads更多，可能來自於沒有poly A的非編碼RNA。

為什麼我之前說rRNA才是我們最worry的呢？見下圖左一bar。一次測序300M reads，2000英鎊-4000英鎊，然後你拿給老闆說270M reads都map到了rRNA上（這些reads沒用了），15M reads map到intergenic regions，只剩下15M reads，只有7M reads uniquely mapped to Exonic region，平分到8個samples上，每個sample只有&<1M reads，不能分析。「老闆，我們再重新測一次吧」你覺得老闆會怎麼說( ′ ▽ ` )?

圖片來源：NEBNext? rRNA Depletion Kit (Human/Mouse/Rat)

（3）個人經驗：

我做過的bulk RNA-seq的數據（實驗和分析都是自己做的，用的polyA的beads或者使用oligo dT primers去富集mRNA），在分析時，會見到有些基因是non-coding RNA。但是感覺reads數不多，不會影響對正常mRNA和transcriptome的分析。（等下次有空統計一下再補充具體數據）

我做過的single-cell RNA-seq的數據（實驗和分析也都是自己做的），是來自於SMART-seq2，non-coding RNA還沒有觀察到。

我帶的一個暑期實習生分析的我們組另外一個博士生在developing的單細胞RNA測序方法，裡面莫名其妙大部分都是rRNA和non-coding RNA。只能說，這個方法不是well-developed，還有缺陷。

總結：常用的mRNA-seq methods中確實可以觀察到ncRNA，但是大部分情況下是可以忽略不計的。

文獻：見文中括弧。

轉載：若需轉載，請先聯繫作者。

（好，可以去吃飯了╮(￣▽￣"")╭）

事實上是測出來以後都要和標準序列進行比對的，即使測出來也可以過濾掉的。

推薦閱讀：

※生物信息學入門需要具備什麼能力？
※Perl，R，Python在生物信息學中分別扮演著怎樣的角色？
※複製出來的人是否於原來的人擁有完全相同的記憶、世界觀和價值觀？

TAG:生物信息學 | RNA | L36H |