初識GATK
05-06
1.什麼是GATK
GATK是Genome Analysis Toolkit的縮寫,是用來處理高通量測序數據的一套軟體。最初,GATK被設計用來分析人類基因組和外顯子,主要用來尋找SNP和indel。後開,GATK的功能越來越豐富,增加了short variant calling、計算copy number(CNV)和結構變異(SV)等新功能。同時,GATK也越來越廣泛地應用於其他物種的數據分析中。現在,GATK已經成為了基因組和RNA-seq分析過程中,尋找變異的行業標準。
2. GATK分析的pepline
用GATK尋找SNP和Indel,有一個標準的分析流程叫做GATK Best Practise主要包括以下幾個步驟:
- 數據預處理:對從測序儀下機後的數據進行質控,去除低質量的reads,將過濾後的reads比對到參考基因組上,產生BAM格式的比對文件。
- 尋找變異:進行variant calling,尋找SNP和Indel,將比對數據存儲在VCF格式的文件中。
- 使用尋找出的變異位點進行後續的分析。
3.計算機平台和運行環境
GATK支持Linux和MacOS X,不支持Windows系統。GATK是用java語言寫的,所以需要系統安裝Java 1.8,其中的一些工具還依賴R和Python。
4.GATK4中的工具
GATK中提供了豐富的工具,供我們對數據進行操作和處理,主要涵蓋以下方面:
- Copy Number Variant Discovery
- Coverage Analysis
- Diagnostics and Quality Control
- Intervals Manipulation
- Metagenomics
- Other
- Read Data Manipulation
- Reference
- Short Variant Discovery
- Structural Variant Discovery
- Variant Evaluation and Refinement
- Variant Filtering
- Variant Manipulation
- Base Calling
- Read Filters
- Variant Annotations
具體的工具和使用方法可參考官網。
另外,在GATK4中新增加了Picard Toolkit,用來對測序數據進行質控。所有的Picard工具都可以使用GATK命令行調用。
推薦閱讀:
※哪裡能買到《R語言與Bioconductor生物信息學應用》
※生物信息學100個基礎問題:問題及答案目錄
※生物信息學100個基礎問題 —— 第3題 Illumina測序技術細節探究
※【好書分享】生信技能學習指南
※生物信息學100個基礎問題——第11~15題 答案公布
TAG:生物信息學 |