生物信息學100個基礎問題 —— 第26題 什麼是RefSeq Gene? 怎麼給NCBI反饋問題?

Hello 大家好,我們又見面了!

昨天我們給大家介紹了怎麼下載GTF/GFF文件,並讓大家嘗試使用2種方法分別從UCSC genome browser上下載RefSeq Gene GTF(hg19版本);以及Ensembl網上下載Ensembl Gene GTF(hg19版本),還在最後的提問環節讓大家比較了一下這兩者的不同。

1. 常用的Gene注釋

其實,常用的gene注釋有不同的來源,這個來源一般是某一個組織通過一定的方法來確定下來的參考gene的相關注釋信息。比如常用的有:

  • RefSeq Gene注釋,對gene的不同轉錄本進行注釋,1個轉錄本對應1個編號成為RefSeq id,例如對於可以翻譯成蛋白的轉錄本,都會以NM_開頭如NM_015658;對於不能翻譯的轉錄本,都會以NR_開頭如NR_027055;
  • Ensembl注釋;對gene的不同轉錄本進行注釋,以ENSG開頭的表示Ensembl gene_id如ENSG00000227232,以ENST開頭的表示Ensembl transcript id如ENST00000438504
  • UCSC gene注釋;對gene的不同轉錄本進行注釋,一般是類似uc004cpf這樣的名稱。

針對1個參考基因組版本,比如human的hg19參考基因組版本,會有來自各種不同組織,不同方法的基因注釋。這些基因注釋各有優劣,沒有絕對的好與絕對的壞,只有掌握他們的注釋規則,才能找到最適合我們課題的基因注釋。所以,我們今天先來介紹一下RefSeq Gene的注釋規則與原理。

2. RefSeq 計劃與RefSeq gene

RefSeq = The NCBI Reference Sequence

這個計劃是由NCBI提出的,意圖是為所有常見生物提供非冗餘,人工選擇過的參考序列。一個物種的RefSeq注釋通常包含:參考基因組,參考轉錄組,參考蛋白序列,參考SNP信息,參考CNV信息等等。

RefSeq基本上我們最常用的一個gene注釋版本了,因為經過了人工挑選,挑選出來的gene或者是轉錄本都十分可靠。在RefSeq的官方說明文檔中,這麼寫了一句話 「It is a unique resource because it provides a large, multi-species, curated sequence database.」 這個curated是什麼意思,大家可以查查字典~

從RefSeq的官方網站上可以下載到N個物種的參考序列信息,從無核到有核,從原核到真核,從低等到高等應有盡有。不過呢,這裡面還是human的信息注釋得最為全面,並且在RefSeq的主頁上做了單獨的頁面鏈接如圖1所示。

圖1 RefSeq的官方頁面

點擊圖1頁面中的Human Genome Resource and Download就可以進入Human資源的專題頁面,如圖2-1,圖2-2所示。

圖2-1 Human Genome Resource and Download頁面上半部分

圖2-2 Human Genome Resource and Download頁面的download部分

頁面的下半部分就是download的信息,其中提供了兩個版本的資源,GRCh38 = hg38, GRCh37 = hg19。不過,我們注意一下,這裡的基因注釋文件為GFF3.0版本,和GTF(GFF2.0版本)略有不同,但裡面的信息等價,也可以作為參考文件提供給比對軟體。

我們點擊GRCh37版本的gff3文件,結果我這裡出現了報錯信息:

> The link cannot be connected!

好吧,那就只能去給NCBI提個意見,告訴他們這裡出錯了喲!

3. 怎麼給NCBI反饋問題?

一般NCBI不同板塊都會有不同的反饋途徑,比如針對RefSeq板塊反饋,就直接打開RefSeq的官方主頁然後點擊下方的Contact RefSeq Help Desk(圖3-1).

圖3-1 在RefSeq主頁,找到Contact RefSeq Help Desk

然後就會出現提交問題的頁面,在這個頁面,我們需要填寫基本的情況類型,聯繫方式,報錯信息等等,然後就可以點擊提交。如圖3-2所示。

圖3-2 提交問題反饋以及報錯信息

在提交以後,會出現提交成功的信息如圖3-3所示。

圖3-3 問題提交成功的頁面

可能有的小夥伴會問了,你提交的問題或者給NCBI提的各種意見或建議會有用嗎?

告訴各位一個好消息,以我個人的經驗,NCBI的工作人員都非常負責!一般1到2個工作日內(需要考慮時差)都會收到郵件回復。比如,我今天提交的這個問題,大概過了1個小時就收到了NCBI工作人員的郵件回復,回複信息如下(圖3-4):

圖3-4 NCBI工作人員的回復郵件

目前,圖2-2中GRCh37版本的GFF3文件鏈接已經被修復,可以下載了。大家可以試試~

鏈接:ncbi.nlm.nih.gov/projec

4. 提問環節

1. 請點開RefSeq的官方主頁,隨便點一點裡面的內容,探索一下每個鏈接對應的內容是什麼;

2. 嘗試下載hg19的GFF3文件,並簡單比較GFF3與GTF文件的不同。


另外,希望大家多多支持我們的生物信息學知乎Live,每一期都很用心準備!

購買其中任意1次生物信息學知乎Live都可以加入到我們的生物信息學交流群!

注意!入群的時候需要提交1個申請信息,申請信息的內容在每次生信知乎Live的最最下面!

知乎 Live 鏈接-生物信息學-孟浩巍


推薦閱讀:

R語言入門5:數據變形-Tidyr
【工具】TCGAbiolinks分析TCGA數據(DEA篇)
生物信息學100個基礎問題 —— 第3題 Illumina測序技術細節探究
生物信息神奇網站系列(十七):Bioconductor Workflows
【生信菜鳥經】漫談如何跨越擺在生信入門路上的三大障礙

TAG:生物信息學 | 基因組學 | 互聯網 |