獲取3UTR序列方法

08-31

獲取3UTR序列方法

來自專欄生物信息學1 人贊了文章

3URT區域為， mRNA 3′末端非翻譯區；通常動物miRNA常常作用於3UTR區域。所以在進行動物的靶基因預測時，需要從序列中抽取3UTR作為靶標預測。

通常獲得3UTR序列有三種方法：

1）從NCBI中獲取；

2）從ensamble獲取；

3）從基因組注釋文件中提取（gff文件等）。

三種獲取方法各有利弊：

1）NCBI獲取方法簡單，但是獲得的序列帶有polyA尾巴，並且NCBI數據冗餘大，容易找到錯誤的3UTR;

2)ensamble的物種有限，遇到一些特別物種時束手無策；

以上兩種方法最致命的缺點是不能批量提取，在目標3UTR數量龐大時，效率低下；

3）從基因組注釋文件提取，可批量提取，效率高，但是需要對基因組注釋文件有一定了解，有一定的編程能力。

從基因組注釋文件中提取時注意幾點:

1)3UTR起始位置：CDS最大尾坐標;3UTR終止位置：mRNA尾坐標；

2)一般基因組的注釋文件根據注釋數據來源可靠性分為：Gnomon（最多），BestRefSeq（數據最可靠），BestRefSeq%2CGnomon，Curated Genomic，RefSeq，tRNAscan-SE等。對於一些研究不是很透徹的物種推薦只選擇BestRefSeq注釋結果。

以Gallus gallus物種為例，提取3UTR示例：

https://github.com/SamYangBio/get-3utr?

github.com