生物信息學100個基礎問題 —— 第12題 trim與cutadapt 先用哪個？

05-01

Hello大家好！我們又見面了！

上一次我們說到了cutadapt軟體的使用問題，其中我們著重強調了1個參數-m，不知道大家還有沒有印象。今天我們問題就是要使用-m參數和另一個工具聯合的一個妙用。不過在這之前，我們還得先介紹1個工具箱叫fastx_toolkit.

fastx_toolkit是一個系列內容的軟體包，其中主要的內容是對比對前的fastq文件做質控。比如切掉一些不要的內容（fastx_trimmer），比如FASTQ與FASTA格式的轉換（fastq_to_fasta），比如分單鏈測序的index（fastx_barcode_splitter）等等。我們今天主要是給大家說一下fastx_trimmer的用處。

fastx_trimmer主要是切掉一些fastq中你不想要的序列，比如有些序列5端有若干bp的質量不好的或者鹼基不穩定的部分；或者是5端有一些用來去重複（duplicate）的random barcode（如圖1所示）；還可能是3端一些質量不好的鹼基。

圖1 前面10bp序列含有random barcode因此在比對之前需去掉。

這裡我再給大家1張圖，就是之前我們展示過的Human普通的RNA-Seq測序的adapter分布圖（圖2）。

圖2-1 Human普通的RNA-Seq測序的adapter分布圖

在實際數據分析與處理的過程中，會有下面幾個要求：

1. fastq文件中的adapter肯定是需要去掉的；

2. 一些頭部的random barcode也是需要去掉的；

3. 在進行一些特殊的分析的時候，還需要保證所有的輸入序列長度完全一致，不能長不能短，必須整整齊齊在一起（比如RNA-Seq的可變剪切分析經常有這個要求）。

那麼我們今天的問題就是——

假設你有一個RNA-Seq測序文件需要進行可變剪切分析，你需要達到的要求是：

1. 處理過後的fastq文件中不包含adapter序列；2. 處理過後的fastq文件中的開頭10bp是random barcode也需要去；3. 最後得到的序列長度完全一致（不滿足上述要求的扔掉）；假設我們的輸入文件是：input.fastq假設我們的操作系統是：Linux Ubuntu其中的adapter序列是：AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTATCATT

請參考cutadapt與fastx_trimmer這兩個軟體的使用說明，設計處理路線圖。如果有可能，請給出相應的參數。

參考資料

高通量測序技術-使用 FastQC 做質控

高通量測序技術-序列比對前的準備工作

FASTX-Toolkit - fastx_trimmer使用說明

cutadapt 1.16 documentation-序列的過濾部分