標籤:

生物信息神奇網站系列(五):文件格式解析

編者按

生物信息本質上是利用生物軟體處理生物數據,不過在執行的過程中就變成了各種文件格式的相互轉換。有生物信息學家開玩笑說自己每天的工作就是文本格式轉換,其實是這樣的,例如常見的從qseq到fastq,從fastq到bam,從bam到vcf等。所以,了解生物數據的文件格式很重要,這裡UCSC給出了一個頁面,裡面包含了常見各種生物數據格式解析。

五:文件格式解析

genome.ucsc.edu/FAQ/FAQ

1、裡面包含了常用的各種文件格式解析。

2、常用的有bam,vcf,bed,gtf等,每一種表示不同的生物數據類型。

3、雖然沒有給出最基礎的fastq和fasta,其實在頁面最下面給出了鏈接,點解鏈接可以里了解。

4、bed文件詳細給出了每一列所代表的含義,並且有案例,bed文件主要用來標註基因組上各種元件的坐標信息,外顯子測序和RNAseq中會用到。

5、一些文件格式過於複雜,例如bam或者vcf,會給出外鏈。例如表示基因組變異的vcf文件。

6、這麼多的文件格式,很難一次性全部記住,而且也沒有這個必要,如果有過分析實踐工作,就會了解到其中的一些共性,比如ID,起始位點,終止位點,方向,分值,這些都是各種生物數據常見的選項。

Tips:1、做生物信息,了解文件格式非常重要。

2、需要在實踐中不斷提高,而不是死記硬背每種格式。


推薦閱讀:

關於BBQ100活動與生物信息學Book進度的說明
每個實驗室都需要一個自己的 Blast 網站
《高通量材料集成計算》誤導《材料基因組》的研究

TAG:基因組學 |