生物信息學100個基礎問題 —— 第27題 GENCODE與Ensembl GTF/GFF到底哪裡不同?怎麼下載?

Hello 大家好! 今天是假期的第?天,先祝大家五一勞動節快樂!

不過,既然是勞動節嘛!那就勞動最光榮,因此在這個特殊的日子裡,我們繼續為大家奉上一篇乾貨滿滿的BBQ(Basic Bioinformatics Questions)問答內容。其實大家應該能夠發現,最近我們的BBQ問答內容,問題越來越簡單,但是前面的乾貨越來越多,主要目的就是為了讓大家能夠真正上手做點東西,希望大家多多支持,也多多轉發我們的文章,謝謝啦~

1. 基因注釋的不同版本問題

其實在BBQ26題(生物信息學100個基礎問題 —— 第26題 什麼是RefSeq Gene? 怎麼給NCBI反饋問題?)的時候,我們已經向大家解釋過1次,在這裡我們再重新複習一遍,針對gene在genome上的注釋文件,也就是我們常說的GTF/GFF文件,目前主要的注釋版本主要有:

  • RefSeq Gene注釋,對gene的不同轉錄本進行注釋,1個轉錄本對應1個編號成為RefSeq id,例如對於可以翻譯成蛋白的轉錄本,都會以NM_開頭如NM_015658;對於不能翻譯的轉錄本,都會以NR_開頭如NR_027055;
  • Ensembl注釋;對gene的不同轉錄本進行注釋,以ENSG開頭的表示Ensembl gene_id如ENSG00000227232,以ENST開頭的表示Ensembl transcript id如ENST00000438504
  • UCSC gene注釋;對gene的不同轉錄本進行注釋,一般是類似uc004cpf這樣的名稱。

那麼,在BBQ26題的時候,我們為大家介紹了RefSeq GTF/GFF的下載方式,並且向NCBI反饋了1個問題。RefSeq其實是平時我們最常用的1個gene注釋版本啦,注釋都是通過人工挑選的,如果是NM或者NR開頭的就更為可信。但是,RefSeq有一些注釋不夠完整,或者說有一些可能存在的,有用的gene轉錄本,所以有的時候我們會推薦大家使用Ensembl或者GENCODE的注釋,那麼我們今天的問題來了——Ensembl和GENCODE的GTF/GFF注釋有什麼不同?

2. GENCODE上下載GTF/GFF

先說說GENCODE是什麼吧,根據GENCODE的官方說明文檔,GENCODE的目的是為了建立一個公用可信的gene注釋體系,其縮寫的對應關係為:

The GENCODE Project = Encyclop?dia of genes and gene variants

好了,讓我們先訪問以下GENCODE的官方網站:gencodegenes.org/

圖2-1 GENCODE 官方網站

其實,大家可以發現GENCODE的網站上,只提供了Human和Mouse兩個物種的注釋信息,但這兩個物種也是平時研究的時候最關心最常用的兩個物種。每個物種有若干個版本,我們一般下載最新版本就好了。下面以Human的數據下載為例為大家進行講解。

1. 先來點開Human的data部分;2. 選擇你想要的數據;

圖2-2 GENCODE上關於Human的Data文件

大家可以看出來,GENCODE已經對數據做了非常好的整理,不但提供了各種類型數據的下載,而且在下方的Metadata部分,還解釋了每一種數據的元數據。也就是不但告訴我們注釋的結果,還告訴了我們為什麼這麼注釋,真的很良心!

在這裡,我們就為大家下載了最常用的gene annotation也就是第1個文件Comprehensive gene annotation 的 GTF格式。

3. Ensembl 下載

關於Ensembl的GTF下載,我們之前已經有了非常詳細的探討,請移步BBQ25查看!

孟浩巍:生物信息學100個基礎問題 —— 第25題 GTF/GFF的注釋是怎麼來的,應該從哪裡下載?

4. GENCODE與Ensembl GTF/GFF有什麼不同?

我們先來看一下這兩者的數據內容:

這是我們用BBQ25裡面的方法從Ensembl下載下來的GTF文件;

#!genome-build GRCh37.p13#!genome-version GRCh37#!genome-date 2009-02#!genome-build-accession NCBI:GCA_000001405.14#!genebuild-last-updated 2013-091 ensembl_havana gene 11869 14412 . + . gene_id "ENSG00000223972"; gene_version "4"; gene_name "DDX11L1"; gene_source "ensembl_havana"; gene_biotype "pseudogene";1 havana transcript 11869 14409 . + . gene_id "ENSG00000223972"; gene_version "4"; transcript_id "ENST00000456328"; transcript_version "2"; gene_name "DDX11L1"; gene_source "ensembl_havana"; gene_biotype "pseudogene"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; tag "basic";1 havana exon 11869 12227 . + . gene_id "ENSG00000223972"; gene_version "4"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "1"; gene_name "DDX11L1"; gene_source "ensembl_havana"; gene_biotype "pseudogene"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00002234944"; exon_version "1"; tag "basic";1 havana exon 12613 12721 . + . gene_id "ENSG00000223972"; gene_version "4"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "2"; gene_name "DDX11L1"; gene_source "ensembl_havana"; gene_biotype "pseudogene"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00003582793"; exon_version "1"; tag "basic";1 havana exon 13221 14409 . + . gene_id "ENSG00000223972"; gene_version "4"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "3"; gene_name "DDX11L1"; gene_source "ensembl_havana"; gene_biotype "pseudogene"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00002312635"; exon_version "1"; tag "basic";

這是我們剛剛下載下來的GENCODE的GTF文件;

##description: evidence-based annotation of the human genome (GRCh38), version 28 (Ensembl 92)##provider: GENCODE##contact: gencode-help@ebi.ac.uk##format: gtf##date: 2018-03-23chr1 HAVANA gene 11869 14409 . + . gene_id "ENSG00000223972.5"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; level 2; havana_gene "OTTHUMG00000000961.2";chr1 HAVANA transcript 11869 14409 . + . gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "RP11-34P13.1-002"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";chr1 HAVANA exon 11869 12227 . + . gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "RP11-34P13.1-002"; exon_number 1; exon_id "ENSE00002234944.1"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";chr1 HAVANA exon 12613 12721 . + . gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "RP11-34P13.1-002"; exon_number 2; exon_id "ENSE00003582793.1"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";chr1 HAVANA exon 13221 14409 . + . gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "RP11-34P13.1-002"; exon_number 3; exon_id "ENSE00002312635.1"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";

仔細觀察一下,我們發現兩者貌似沒什麼不同,除了GTF第9列的可選信息寫的順序不一樣,不過這都沒有什麼影響。我們來看看官方是怎麼回答這個問題的:

What is the difference between GENCODE and Ensembl annotation?

The GENCODE annotation is made by merging the Havana manual gene annotation and the Ensembl automated gene annotation. The GENCODE annotation is the default gene annotation displayed in the Ensembl browser. The GENCODE releases coincide with the Ensembl releases, although we can skip an Ensembl release is there is no update to the annotation with respect to the previous release. In practical terms, the GENCODE annotation is identical to the Ensembl annotation.

簡單翻譯過來:

GENCODE的組成包括Havana組織的人工注釋,以及Ensembl的程序自動注釋,在Ensembl的genome瀏覽器中,使用的是GENCODE的注釋文件。這兩個是完全等價的!

那麼GENCODE與Ensembl GTF一點區別也沒有嗎?肯定不是的!來看看官方文檔怎麼說:

What is the difference between GENCODE GTF and Ensembl GTF?

The gene annotation is the same in both files. The only exception is that the genes which are common to the human chromosome X and Y PAR regions can be found twice in the GENCODE GTF, while they are shown only for chromosome X in the Ensembl file.

In addition, the GENCODE GTF contains a number of attributes not present in the Ensembl GTF, including annotation remarks, APPRIS tags and other tags highlighting transcripts experimentally validated by the GENCODE project or 3-way-consensus pseudogenes (predicted by Havana, Yale and UCSC). Find here the complete list of tags.

簡單翻譯一下:

在X與Y的同源區域,有一些基因是在兩條染色體上都有的,Ensembl只在X染色體注釋了1次,GENCODE在X與Y染色體各注釋了1次。

同時,GENCODE的GTF在第9列的可選列裡面增加了很多新的tag信息來記錄更多的注釋內容。這些在Ensembl的注釋裡面也是沒有的。

5. 今天的問題

  • 請訪問GENCODE的官方網站,查看並瀏覽statistics信息,看看最新版本的GENCODE中包含的各種類型的gene數目;
  • 想辦法查找到human X與Y染色體的同源區域(PAR regions)的坐標,並想辦法驗證,GENCODE確實對這些同源區域注釋了2次;
  • 開放思考:如果讓你做可變剪切的分析,你是用RefSeq的注釋,還是Ensembl的注釋還是GENCODE的注釋?請說出你的理由。

另外,希望大家多多支持我們的生物信息學知乎Live,每一期都很用心準備!

購買其中任意1次生物信息學知乎Live都可以加入到我們的生物信息學交流群!

注意!入群的時候需要提交1個申請信息,申請信息的內容在每次生信知乎Live的最最下面!

知乎 Live 鏈接-生物信息學-孟浩巍


推薦閱讀:

生物信息學習資源整理+備記
PCR duplicates in NGS - I
R語言入門5:數據變形-Tidyr
生物信息神奇網站系列(十八):w3school

TAG:生物信息學 | 基因組學 |