生物信息學100個基礎問題 —— 第12題 trim與cutadapt 先用哪個?

Hello大家好!我們又見面了!

上一次我們說到了cutadapt軟體的使用問題,其中我們著重強調了1個參數-m,不知道大家還有沒有印象。今天我們問題就是要使用-m參數和另一個工具聯合的一個妙用。不過在這之前,我們還得先介紹1個工具箱叫fastx_toolkit.

fastx_toolkit是一個系列內容的軟體包,其中主要的內容是對比對前的fastq文件做質控。比如切掉一些不要的內容(fastx_trimmer),比如FASTQ與FASTA格式的轉換(fastq_to_fasta),比如分單鏈測序的index(fastx_barcode_splitter)等等。我們今天主要是給大家說一下fastx_trimmer的用處。

fastx_trimmer主要是切掉一些fastq中你不想要的序列,比如有些序列5端有若干bp的質量不好的或者鹼基不穩定的部分;或者是5端有一些用來去重複(duplicate)的random barcode(如圖1所示);還可能是3端一些質量不好的鹼基。

圖1 前面10bp序列含有random barcode因此在比對之前需去掉。

這裡我再給大家1張圖,就是之前我們展示過的Human普通的RNA-Seq測序的adapter分布圖(圖2)。

圖2-1 Human普通的RNA-Seq測序的adapter分布圖

在實際數據分析與處理的過程中,會有下面幾個要求:

1. fastq文件中的adapter肯定是需要去掉的;

2. 一些頭部的random barcode也是需要去掉的;

3. 在進行一些特殊的分析的時候,還需要保證所有的輸入序列長度完全一致,不能長不能短,必須整整齊齊在一起(比如RNA-Seq的可變剪切分析經常有這個要求)。

那麼我們今天的問題就是——

假設你有一個RNA-Seq測序文件需要進行可變剪切分析,你需要達到的要求是:

1. 處理過後的fastq文件中不包含adapter序列;2. 處理過後的fastq文件中的開頭10bp是random barcode也需要去;3. 最後得到的序列長度完全一致(不滿足上述要求的扔掉);假設我們的輸入文件是:input.fastq假設我們的操作系統是:Linux Ubuntu其中的adapter序列是:AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTATCATT

請參考cutadapt與fastx_trimmer這兩個軟體的使用說明,設計處理路線圖。如果有可能,請給出相應的參數。

參考資料

高通量測序技術-使用 FastQC 做質控

高通量測序技術-序列比對前的準備工作

FASTX-Toolkit - fastx_trimmer使用說明

cutadapt 1.16 documentation-序列的過濾部分


推薦閱讀:

生物信息學100個基礎問題 —— 第11題 使用cutadapt去除adapter
【討論】WGCNA 分析中需要設定多少個模塊比較合理
生物信息學100個基礎問題 —— 第16題 高通量測序的回貼問題 I

TAG:生物信息學 | 測序 | Illumina |