生物信息學100個基礎問題 —— 第11題 使用cutadapt去除adapter
Hello大家好!我們又見面了!
通過前面的生物信息學10個基礎問題,我相信大家對測序的基本原理,FASTA與FASTQ格式以及FastQC的質控報告都有了一個清楚的認識。那麼接下來,我們就要進一步學習,學習如何把原始的FASTQ測序結果一步一步的準備成可以用來比對(mapping)的質控過後的FASTQ。
在生物信息學100個基礎問題 —— 第10題 讀懂FastQC報告之adapter與kmer中,我們知道,測序結果中可能會有若干條序列存在adapter的信息,而adapter的信息一般是不在基因組上存在的。所以,在比對之前如果不把adapter去乾淨,我相信你會得到1個非常非常低的mapping rate。
通常情況下,我們都是使用cutadapt這個軟體進行adapter(接頭)序列的去除。cutadapt這個軟體不但支持單端序列,還支持雙端序列的切除,同時還支持gz格式的自動壓縮與解壓縮。1個常用的切除命令類似:
# 在linux 命令行模式下cutadapt -a ADAPTER_FWD -A ADAPTER_REV -o out.1.fastq -p out.2.fastq reads.1.fastq reads.2.fastq# -a是第1個文件的adapter序列# -A是第2個文件的adapter序列# -o是第1個輸出文件# -p是第2個輸出文件# reads.1.fastq 是第1個輸入文件,也就是雙端測序中的read-1# reads.2.fastq 是第2個輸入文件,也就是雙端測序中的read-2
那麼我們今天需要思考的問題,與切除adapter的具體內容有關。
1. cutadapt中-a/-A 參數與-g/-G參數分別代表什麼意思?Illumina測序過程中,一般不會用到哪個參數?
2. cutadapt可以過濾一些非常短的reads,請解釋其中-m 參數是什麼意思?為什麼要過濾一些非常短的reads?
3. 在測序的過程中,我們經常發現一些序列的3端的測序質量不太好(如圖2所示),即使去掉adapter以後還是需要把低質量的序列再去除1次,從而保證後續的mapping質量。cutadapt可以使用一些辦法來去除3端質量不太好的序列。請說明用哪個參數來設置相關的cutoff,並簡要說明cutadapt對read質量判斷的策略與方法。
參考資料:
孟浩巍:20160420-序列比對前的準備工作
cutadapt 1.16官方文檔-Trim低質量區域的演算法說明
推薦閱讀:
※DeepVariant: 用卷積神經網路進行DNA序列變異位點檢測
※我是解螺旋的礦工,我熱愛生命科學
※開悟時刻
※【生信菜鳥經】漫談如何跨越擺在生信入門路上的三大障礙
※Analyzing RNA-seq data with DESeq2翻譯(3)