hg19,GRCH37,ensembl75各種基因組版本對應關係是什麼?_?

看到各種表示方式很多次了,有時候感覺他們很亂!各種版本的基因組,各種版本的注釋信息,各種下載地址,有一個綜合性的說明嗎?


這是三種國際生物信息學資料庫資源收集存儲單位,即NCBI,UCSC,ENSEMBL,各自發布的基因組信息!

hg系列,hg18/19/38,是UCSC的,也是使用頻率最高的!從我出道就只看過hg19了,但是建議大家都轉為hg38,是目前最新版!

我的博客提過這些基因組不同版本對應關係以及下載地址:基因組各種版本對應關係

綜合起來看,就是~

GRCh36 (hg18): ENSEMBL release_52.

GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.

GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.

hg18以前更早的版本我就不提了,沒意思了,那是我估計還沒玩過電腦!更別說什麼基因組了!

ENSEMBL的版本特別複雜!!!很容易搞混!

但是UCSC的版本就簡單了,就hg18,19,38, 常用的是hg19,但是我推薦大家都轉為hg38

看起來NCBI也是很簡單,就GRCh36,37,38,但是裡面水也很深!

Feb 13 2014 00:00 Directory April_14_2003
Apr 06 2006 00:00 Directory BUILD.33
Apr 06 2006 00:00 Directory BUILD.34.1
Apr 06 2006 00:00 Directory BUILD.34.2
Apr 06 2006 00:00 Directory BUILD.34.3
Apr 06 2006 00:00 Directory BUILD.35.1
Aug 03 2009 00:00 Directory BUILD.36.1
Aug 03 2009 00:00 Directory BUILD.36.2
Sep 04 2012 00:00 Directory BUILD.36.3
Jun 30 2011 00:00 Directory BUILD.37.1
Sep 07 2011 00:00 Directory BUILD.37.2
Dec 12 2012 00:00 Directory BUILD.37.3

可以看到,有37.1, 37.2, 37.3 等等,不過這種版本一般指的是注釋在更新,基因組序列一般不會更新!!!

反正你記住hg19基因組大小是3G,壓縮後八九百兆即可!!!

如果要下載GTF注釋文件,基因組版本尤為重要!!!

對NCBI:ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/ ##最新版(hg38)

ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ ## 其它版本

對於ensembl:

ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz

變幻中間的release就可以拿到所有版本信息:ftp://ftp.ensembl.org/pub/

對於UCSC,那就有點麻煩了:

如果是基因組,直接去goldenPath即可!!!

http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz;

你仔細看域名, 就明白了,很簡單的!

for i in $(seq 1 22) X Y M;

do echo $i;

wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz;

done

gunzip *.gz

for i in $(seq 1 22) X Y M;

do cat chr${i}.fa &>&> hg19.fasta;

done

rm -fr chr*.fasta

需要選擇一系列參數:

Table Browser

1. Navigate to Table Browser

2. Select the following options:


clade: Mammal


genome: Human


assembly: Feb. 2009 (GRCh37/hg19)


group: Genes and Gene Predictions


track: UCSC Genes


table: knownGene

region: Select 「genome」 for the entire genome.


output format: GTF – gene transfer format


output file: enter a file name to save your results to a file, or leave blank to display results in the browser

3. Click 『get output』.

本文固定鏈接: http://www.bio-info-trainee.com/1469.html | 生信菜鳥團


請問Hg18和Hg19版本有什麼本質區別嗎?急,在線等


我只用過hg19 不過另外那個答主說的對最新的確是38.

在用ensembl版本的時候記得把&>1 等染色體標籤換成&>chr1 省去很多麻煩


推薦閱讀:

DNA和組蛋白的甲基化或者乙醯基化等修飾信號改變轉錄活性,那麼如果同時存在多種修飾,對轉錄有何影響?
染色體檢查顯示有問題,但醫生說沒大事,請幫忙看看到底怎麼回事,可以要孩子嗎?
轉基因到底錯在哪?
從《侏羅紀世界》中提到的事中引發思考,人類有沒有可能編造dna使其生長發育成一個恐龍或者某新物種?
23andme 的「基因體檢」對個人健康的參考價值有多大?

TAG:基因 | 生物信息學 | 生物專業 |