Illumina測序數據的質量控制(QC)-1
1.Fastq文件解析
FASTQ是基於文本的,保存生物序列(通常是核酸序列)和其測序質量信息的標準格式。其序列以及質量信息都是使用一個ASCII字元標示,最初由Sanger開發,目的是將FASTA序列與質量數據放到一起,目前已經成為高通量測序結果的事實標準。NCBI Short Read Archive也是這格式,多了一些描述性辭彙而已。普通Fastq文件:解釋:
第一行:illumina sequence identifier 序列標示及相關的描述信息。以「@」開頭。第二行:illumina swquence 序列本身第三行:Quality score identifier line(consisting of a 「+」)以「+」開頭(不可省略),後面是序列標示、描述信息,或者什麼也不加。第四行:Quality score 序列質量信息,與序列一一對應,每一個鹼基都有一個質量評分。1.1鹼基質量說明
鹼基質量即該位置鹼基在測序時的準確率或者錯誤率。其最初在Phred拼接軟體中定義與使用,其後在許多軟體中得到使用。其質量得分與錯誤概率的對應關係見下表:
具體的換算公式:對於每個鹼基的質量編碼標示,不同的軟體採用不同的方案,目前有5種方案:目前Illumina機器得到的基本是illumina 1.8方案。
1.2鹼基質量與對應的ASCII字元
2.使用FastQC軟體對NGS數據進行質量統計
2.1FastQC軟體的介紹
FastQC的主頁:FastQC A Quality Control tool for High Throughput Sequence Data
FastQC很很好的檢測NGS數據的好壞,但是不能進行reads 的過濾和修剪。該軟體能在win、max和linux三大平台上運行,且能夠以圖形化或者命令行的方式運行。
2.2FastQC軟體安裝
參考官網的說明進行安裝。要注意其中強調首先要安裝好java,之後才能使用fastqc
這裡舉一個CentOS系統中安裝FastQC的命令:
$ sudo mkdir -p /opt/biosoft #新建biosoft文件夾,所有的生物信息軟體都安裝到該文件夾下$ sudo chmod 1777 /opt/ /opt/biosoft/ #更改該文件夾的屬性$ cd /opt/biosoft/ #進入該文件夾$ wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc_v0.10.1.zip #下載fastqc$ unzip fastqc_v0.10.1.zip #解壓$ cd FastQC # 進入解壓後的文件夾$ chmod 755 fastqc #修改許可權使fastqc可以以圖形界面運行$ ./fastqc --help #輸出Fastqc幫助文檔n
如果對linux系統不熟悉,或者後續不需要對數據進行個性分析,可以直接選擇win版本的FastQC軟體進行。
2.3運行Fastqc
FastQC的一個運行實例- $ mkdir ~/testData
- $ cd ~/testData
- $ wget http://122.205.95.116/train/testData/fragment.reads1.fastq
- $ wget http://122.205.95.116/train/testData/fragment.reads2.fastq
- $ wget http://122.205.95.116/train/testData/jumping.reads1.fastq
- $ wget http://122.205.95.116/train/testData/jumping.reads2.fastq
- $ wget http://122.205.95.116/train/testData/mycelium.reads1.fastq
- $ wget http://122.205.95.116/train/testData/mycelium.reads2.fastq
- $ wget http://122.205.95.116/train/testData/jumping.reads1.fastq
- $ wget http://122.205.95.116/train/testData/jumping.reads2.fastq #下載練習數據,該網址已失效。
- $ mkdir -p ~/dataPreprocessing/FastQC #遞歸創建多層目錄 ~/ 代表宿主目錄(用戶登錄時所在的目錄)
- $ cd ~/dataPreprocessing/FastQC #
- $ mkdir rawData
- $ /opt/biosoft/FastQC/fastqc -t 8 -o ./rawData ~/testData/*.fastq #「opt/biosoft/FastQC」是Fastqc軟體安裝的位置,「fastqc」是正式執行分析的命令,「-t 8 」並行計算8個任務,輸出文件夾為rawData(絕對位置是~/dataPreprocessing/FastQC/rawData)輸入的fastq文件來自~/testData 文件夾中下載的6個fastq文件。
- $ firefox ./ #用firefox瀏覽器查看結果 「.」 代表當前目錄,「..」 代表上一層目錄
運行分析後,會自動打開firefox瀏覽器:
打開.html文件,就是NGS數據質量分析結果。2.4 FastQC分析結果說明
FastQC分析結果分為11個部分,我們按照順序對各個部分代表的意義進行詳細說明。下圖左邊就是全部11個分析部分,點擊每個部分,就會跳到相應的結果中。各項指標的解讀可以參考官網說明:Index of /projects/fastqc/Help/3 Analysis Modules下次我會結合官網說明做一個詳細的介紹。推薦閱讀:
※轉錄組入門1-環境配置與軟體安裝
※R 學習筆記:R 色彩
※R 學習筆記: 數據輸入輸出
※人生苦短,我用Python
TAG:生物信息学 |