生物信息學100個基礎問題 —— 第11題使用cutadapt去除adapter

04-20

Hello大家好！我們又見面了！

通過前面的生物信息學10個基礎問題，我相信大家對測序的基本原理，FASTA與FASTQ格式以及FastQC的質控報告都有了一個清楚的認識。那麼接下來，我們就要進一步學習，學習如何把原始的FASTQ測序結果一步一步的準備成可以用來比對（mapping）的質控過後的FASTQ。

在生物信息學100個基礎問題 —— 第10題讀懂FastQC報告之adapter與kmer中，我們知道，測序結果中可能會有若干條序列存在adapter的信息，而adapter的信息一般是不在基因組上存在的。所以，在比對之前如果不把adapter去乾淨，我相信你會得到1個非常非常低的mapping rate。

圖1 RNA-Seq建庫的結果，如果不去adapter接下來根本比對不上！

通常情況下，我們都是使用cutadapt這個軟體進行adapter（接頭）序列的去除。cutadapt這個軟體不但支持單端序列，還支持雙端序列的切除，同時還支持gz格式的自動壓縮與解壓縮。1個常用的切除命令類似：

# 在linux 命令行模式下cutadapt -a ADAPTER_FWD -A ADAPTER_REV -o out.1.fastq -p out.2.fastq reads.1.fastq reads.2.fastq# -a是第1個文件的adapter序列# -A是第2個文件的adapter序列# -o是第1個輸出文件# -p是第2個輸出文件# reads.1.fastq 是第1個輸入文件，也就是雙端測序中的read-1# reads.2.fastq 是第2個輸入文件，也就是雙端測序中的read-2

那麼我們今天需要思考的問題，與切除adapter的具體內容有關。

1. cutadapt中-a/-A 參數與-g/-G參數分別代表什麼意思？Illumina測序過程中，一般不會用到哪個參數？

2. cutadapt可以過濾一些非常短的reads，請解釋其中-m 參數是什麼意思？為什麼要過濾一些非常短的reads？

3. 在測序的過程中，我們經常發現一些序列的3端的測序質量不太好（如圖2所示），即使去掉adapter以後還是需要把低質量的序列再去除1次，從而保證後續的mapping質量。cutadapt可以使用一些辦法來去除3端質量不太好的序列。請說明用哪個參數來設置相關的cutoff，並簡要說明cutadapt對read質量判斷的策略與方法。

圖2 一般3端的序列質量不夠好，即使去掉adapter以後還是需要把低質量的序列再去除1次，從而保證後續的mapping質量。

參考資料：

孟浩巍：20160420-序列比對前的準備工作

cutadapt 1.16官方文檔-Trim低質量區域的演算法說明

生物信息學100個基礎問題 —— 第11題 使用cutadapt去除adapter

生物信息學100個基礎問題 —— 第11題使用cutadapt去除adapter