標籤:

Illumina測序數據的質量控制(QC)-1

參考教程:陳連福 NGS生物信息分析V3.2

高通量測序(如Illumina HiSeq2000/Miseq等)得到的原始圖像數據文件經Casava鹼基識別(Base Calling)分析轉化為原始測序序列(Sequenced Reads),我們稱之為Raw Data或Raw Reads,結果以 FASTQ (簡稱為fq)文件格式存儲,其中包含測序序列(reads)的序列信息以及其對應的測序質量信息。fastq文件通常使用.fq, .fastq, .txt等作為後綴。

得到測序公司的數據後,不管我們是準備自己做進一步分析,還是只按照測序公司的結果撰寫文章,數據的質量都是要檢查一下的。本文就介紹查看測序數據質量的方法。

1.Fastq文件解析

FASTQ是基於文本的,保存生物序列(通常是核酸序列)和其測序質量信息的標準格式。其序列以及質量信息都是使用一個ASCII字元標示,最初由Sanger開發,目的是將FASTA序列與質量數據放到一起,目前已經成為高通量測序結果的事實標準。NCBI Short Read Archive也是這格式,多了一些描述性辭彙而已。

普通Fastq文件:

解釋:

第一行:illumina sequence identifier 序列標示及相關的描述信息。以「@」開頭。

第二行:illumina swquence 序列本身

第三行:Quality score identifier line(consisting of a 「+」)以「+」開頭(不可省略),後面是序列標示、描述信息,或者什麼也不加。

第四行:Quality score 序列質量信息,與序列一一對應,每一個鹼基都有一個質量評分。

1.1鹼基質量說明

鹼基質量即該位置鹼基在測序時的準確率或者錯誤率。其最初在Phred拼接軟體中定義與使用,其後在許多軟體中得到使用。其質量得分與錯誤概率的對應關係見下表:

具體的換算公式:

對於每個鹼基的質量編碼標示,不同的軟體採用不同的方案,目前有5種方案:

目前Illumina機器得到的基本是illumina 1.8方案。

1.2鹼基質量與對應的ASCII字元

2.使用FastQC軟體對NGS數據進行質量統計

2.1FastQC軟體的介紹

FastQC的主頁:FastQC A Quality Control tool for High Throughput Sequence Data

FastQC很很好的檢測NGS數據的好壞,但是不能進行reads 的過濾和修剪。該軟體能在win、max和linux三大平台上運行,且能夠以圖形化或者命令行的方式運行。

2.2FastQC軟體安裝

參考官網的說明進行安裝。要注意其中強調首先要安裝好java,之後才能使用fastqc

這裡舉一個CentOS系統中安裝FastQC的命令:

$ sudo mkdir -p /opt/biosoft #新建biosoft文件夾,所有的生物信息軟體都安裝到該文件夾下$ sudo chmod 1777 /opt/ /opt/biosoft/ #更改該文件夾的屬性$ cd /opt/biosoft/ #進入該文件夾$ wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc_v0.10.1.zip #下載fastqc$ unzip fastqc_v0.10.1.zip #解壓$ cd FastQC # 進入解壓後的文件夾$ chmod 755 fastqc #修改許可權使fastqc可以以圖形界面運行$ ./fastqc --help #輸出Fastqc幫助文檔n

如果對linux系統不熟悉,或者後續不需要對數據進行個性分析,可以直接選擇win版本的FastQC軟體進行。

2.3運行Fastqc

FastQC的一個運行實例

  1. $ mkdir ~/testData
  2. $ cd ~/testData
  3. $ wget 122.205.95.116/train/te
  4. $ wget 122.205.95.116/train/te
  5. $ wget 122.205.95.116/train/te
  6. $ wget 122.205.95.116/train/te
  7. $ wget 122.205.95.116/train/te
  8. $ wget 122.205.95.116/train/te
  9. $ wget 122.205.95.116/train/te
  10. $ wget 122.205.95.116/train/te #下載練習數據,該網址已失效。
  11. $ mkdir -p ~/dataPreprocessing/FastQC #遞歸創建多層目錄 ~/ 代表宿主目錄(用戶登錄時所在的目錄)
  12. $ cd ~/dataPreprocessing/FastQC #
  13. $ mkdir rawData
  14. $ /opt/biosoft/FastQC/fastqc -t 8 -o ./rawData ~/testData/*.fastq #「opt/biosoft/FastQC」是Fastqc軟體安裝的位置,「fastqc」是正式執行分析的命令,「-t 8 」並行計算8個任務,輸出文件夾為rawData(絕對位置是~/dataPreprocessing/FastQC/rawData)輸入的fastq文件來自~/testData 文件夾中下載的6個fastq文件。
  15. $ firefox ./ #用firefox瀏覽器查看結果 「.」 代表當前目錄,「..」 代表上一層目錄

運行分析後,會自動打開firefox瀏覽器:

打開.html文件,就是NGS數據質量分析結果。

2.4 FastQC分析結果說明

FastQC分析結果分為11個部分,我們按照順序對各個部分代表的意義進行詳細說明。下圖左邊就是全部11個分析部分,點擊每個部分,就會跳到相應的結果中。

各項指標的解讀可以參考官網說明:

Index of /projects/fastqc/Help/3 Analysis Modules

下次我會結合官網說明做一個詳細的介紹。
推薦閱讀:

轉錄組入門1-環境配置與軟體安裝
R 學習筆記:R 色彩
R 學習筆記: 數據輸入輸出
人生苦短,我用Python

TAG:生物信息学 |