獲取3UTR序列方法
來自專欄生物信息學1 人贊了文章
3URT區域為, mRNA 3′末端非翻譯區;通常動物miRNA常常作用於3UTR區域。所以在進行動物的靶基因預測時,需要從序列中抽取3UTR作為靶標預測。
通常獲得3UTR序列有三種方法:
1)從NCBI中獲取;
2)從ensamble獲取;
3)從基因組注釋文件中提取(gff文件等)。
三種獲取方法各有利弊:
1)NCBI獲取方法簡單,但是獲得的序列帶有polyA尾巴,並且NCBI數據冗餘大,容易找到錯誤的3UTR;
2)ensamble的物種有限,遇到一些特別物種時束手無策;
以上兩種方法最致命的缺點是不能批量提取,在目標3UTR數量龐大時,效率低下;
3)從基因組注釋文件提取,可批量提取,效率高,但是需要對基因組注釋文件有一定了解,有一定的編程能力。
從基因組注釋文件中提取時注意幾點:
1)3UTR起始位置:CDS最大尾坐標;3UTR終止位置:mRNA尾坐標;
2)一般基因組的注釋文件根據注釋數據來源可靠性分為:Gnomon(最多),BestRefSeq(數據最可靠),BestRefSeq%2CGnomon,Curated Genomic,RefSeq,tRNAscan-SE等。對於一些研究不是很透徹的物種推薦只選擇BestRefSeq注釋結果。
以Gallus gallus物種為例,提取3UTR示例:
https://github.com/SamYangBio/get-3utr
推薦閱讀:
※2018!防爆導電滑環最全最詳細介紹
※電壓和電流的有效值
※光柵衍射與相控陣雷達
※天文學家首次直接拍到系外行星的真身照
※流體靜力學:阿基米德浮力定律
TAG:自然科學 |