標籤:

初識GATK

1.什麼是GATK

GATK是Genome Analysis Toolkit的縮寫,是用來處理高通量測序數據的一套軟體。最初,GATK被設計用來分析人類基因組和外顯子,主要用來尋找SNP和indel。後開,GATK的功能越來越豐富,增加了short variant calling、計算copy number(CNV)和結構變異(SV)等新功能。同時,GATK也越來越廣泛地應用於其他物種的數據分析中。現在,GATK已經成為了基因組和RNA-seq分析過程中,尋找變異的行業標準。

2. GATK分析的pepline

用GATK尋找SNP和Indel,有一個標準的分析流程叫做GATK Best Practise主要包括以下幾個步驟:

  1. 數據預處理:對從測序儀下機後的數據進行質控,去除低質量的reads,將過濾後的reads比對到參考基因組上,產生BAM格式的比對文件。
  2. 尋找變異:進行variant calling,尋找SNP和Indel,將比對數據存儲在VCF格式的文件中。
  3. 使用尋找出的變異位點進行後續的分析。

3.計算機平台和運行環境

GATK支持Linux和MacOS X,不支持Windows系統。GATK是用java語言寫的,所以需要系統安裝Java 1.8,其中的一些工具還依賴R和Python。

4.GATK4中的工具

GATK中提供了豐富的工具,供我們對數據進行操作和處理,主要涵蓋以下方面:

  • Copy Number Variant Discovery
  • Coverage Analysis
  • Diagnostics and Quality Control
  • Intervals Manipulation
  • Metagenomics
  • Other
  • Read Data Manipulation
  • Reference
  • Short Variant Discovery
  • Structural Variant Discovery
  • Variant Evaluation and Refinement
  • Variant Filtering
  • Variant Manipulation
  • Base Calling
  • Read Filters
  • Variant Annotations

具體的工具和使用方法可參考官網。

另外,在GATK4中新增加了Picard Toolkit,用來對測序數據進行質控。所有的Picard工具都可以使用GATK命令行調用。


推薦閱讀:

哪裡能買到《R語言與Bioconductor生物信息學應用》
生物信息學100個基礎問題:問題及答案目錄
生物信息學100個基礎問題 —— 第3題 Illumina測序技術細節探究
【好書分享】生信技能學習指南
生物信息學100個基礎問題——第11~15題 答案公布

TAG:生物信息學 |