生物信息學100個基礎問題 —— 第11題 使用cutadapt去除adapter

Hello大家好!我們又見面了!

通過前面的生物信息學10個基礎問題,我相信大家對測序的基本原理,FASTA與FASTQ格式以及FastQC的質控報告都有了一個清楚的認識。那麼接下來,我們就要進一步學習,學習如何把原始的FASTQ測序結果一步一步的準備成可以用來比對(mapping)的質控過後的FASTQ。

在生物信息學100個基礎問題 —— 第10題 讀懂FastQC報告之adapter與kmer中,我們知道,測序結果中可能會有若干條序列存在adapter的信息,而adapter的信息一般是不在基因組上存在的。所以,在比對之前如果不把adapter去乾淨,我相信你會得到1個非常非常低的mapping rate。

圖1 RNA-Seq建庫的結果,如果不去adapter接下來根本比對不上!

通常情況下,我們都是使用cutadapt這個軟體進行adapter(接頭)序列的去除。cutadapt這個軟體不但支持單端序列,還支持雙端序列的切除,同時還支持gz格式的自動壓縮與解壓縮。1個常用的切除命令類似:

# 在linux 命令行模式下cutadapt -a ADAPTER_FWD -A ADAPTER_REV -o out.1.fastq -p out.2.fastq reads.1.fastq reads.2.fastq# -a是第1個文件的adapter序列# -A是第2個文件的adapter序列# -o是第1個輸出文件# -p是第2個輸出文件# reads.1.fastq 是第1個輸入文件,也就是雙端測序中的read-1# reads.2.fastq 是第2個輸入文件,也就是雙端測序中的read-2

那麼我們今天需要思考的問題,與切除adapter的具體內容有關。

1. cutadapt中-a/-A 參數與-g/-G參數分別代表什麼意思?Illumina測序過程中,一般不會用到哪個參數?

2. cutadapt可以過濾一些非常短的reads,請解釋其中-m 參數是什麼意思?為什麼要過濾一些非常短的reads?

3. 在測序的過程中,我們經常發現一些序列的3端的測序質量不太好(如圖2所示),即使去掉adapter以後還是需要把低質量的序列再去除1次,從而保證後續的mapping質量。cutadapt可以使用一些辦法來去除3端質量不太好的序列。請說明用哪個參數來設置相關的cutoff,並簡要說明cutadapt對read質量判斷的策略與方法。

圖2 一般3端的序列質量不夠好,即使去掉adapter以後還是需要把低質量的序列再去除1次,從而保證後續的mapping質量。

參考資料:

孟浩巍:20160420-序列比對前的準備工作

cutadapt 1.16官方文檔-Trim低質量區域的演算法說明

推薦閱讀:

DeepVariant: 用卷積神經網路進行DNA序列變異位點檢測
我是解螺旋的礦工,我熱愛生命科學
開悟時刻
【生信菜鳥經】漫談如何跨越擺在生信入門路上的三大障礙
Analyzing RNA-seq data with DESeq2翻譯(3)

TAG:測序 | 生物信息學 | Illumina |