標籤:

獲取3UTR序列方法

獲取3UTR序列方法

來自專欄生物信息學1 人贊了文章

3URT區域為, mRNA 3′末端非翻譯區;通常動物miRNA常常作用於3UTR區域。所以在進行動物的靶基因預測時,需要從序列中抽取3UTR作為靶標預測。

通常獲得3UTR序列有三種方法:

1)從NCBI中獲取;

2)從ensamble獲取;

3)從基因組注釋文件中提取(gff文件等)。

三種獲取方法各有利弊:

1)NCBI獲取方法簡單,但是獲得的序列帶有polyA尾巴,並且NCBI數據冗餘大,容易找到錯誤的3UTR;

2)ensamble的物種有限,遇到一些特別物種時束手無策;

以上兩種方法最致命的缺點是不能批量提取,在目標3UTR數量龐大時,效率低下;

3)從基因組注釋文件提取,可批量提取,效率高,但是需要對基因組注釋文件有一定了解,有一定的編程能力。

從基因組注釋文件中提取時注意幾點:

1)3UTR起始位置:CDS最大尾坐標;3UTR終止位置:mRNA尾坐標;

2)一般基因組的注釋文件根據注釋數據來源可靠性分為:Gnomon(最多),BestRefSeq(數據最可靠),BestRefSeq%2CGnomon,Curated Genomic,RefSeq,tRNAscan-SE等。對於一些研究不是很透徹的物種推薦只選擇BestRefSeq注釋結果。

以Gallus gallus物種為例,提取3UTR示例:

https://github.com/SamYangBio/get-3utr?

github.com


推薦閱讀:

2018!防爆導電滑環最全最詳細介紹
電壓和電流的有效值
光柵衍射與相控陣雷達
天文學家首次直接拍到系外行星的真身照
流體靜力學:阿基米德浮力定律

TAG:自然科學 |