生物信息百Jia軟體（二）：fastp

05-10

編者按
目前序列質控過濾的軟體非常多，其實有些並不是很好用，使用起來也不是很方便。這款fastp是其中的佼佼者，功能強大，操作簡單，已經可以完成絕大部分的更新了。而且作者來自國內，加了微信可以直接交流。

一、功能分類：

數據質控過濾

二、軟體官網：

https://github.com/OpenGene/fastp/blob/master/README.md

三、軟體介紹:

fastp是一款用來處理測序數據的工具，作者是陳實富，來至於深圳海普洛斯公司。他們將這款工具開源免費使用，這一點是非常值得稱讚的。其實國內很多測序公司都有自己開發的數據處理程序，不過很多都在內部使用。

1、fastp可以實現處理數據的一次性處理，包括過濾低質量，過濾adapter，截取reads，split分割大文件等操作

2、支持長reads，也就是不僅僅適用與illumina測序平台，還可以處理Pacbio和Iontorrent的測序數據

3、直接輸出質控和統計報告，包括json格式和html格式；

4、使用c++寫的，執行效率非常高；

四、下載安裝：

1、源代碼安裝

git clone https://github.com/OpenGene/fastp.gitcd fastpmakemake install

2、編譯好版本

wget http://opengene.org/fastp/fastpchmod a+x fastp

五、軟體使用：

-i，-I是輸入文件

-o，-O是輸出文件，軟體默認是根據擴展名識別壓縮文件，所以輸出文件需要加上*.gz擴展名；

-6 指定質量體系是phred64。目前主流測序數據都採用phred33，如果從NCBI下載以前hiseq 2000以及之前的數據，可能是Phred 64質量體系。

-z 輸出壓縮格式。給定一個數字1-9，調整壓縮比率和效率的平衡；

-A 關閉adapter trimming，默認軟體會切出adapter，如果設置-A，則關閉這個功能；

-a 給定一個adapter序列文件；對於pairend reads 軟體可以自動識別adapter並處理，對於single reads，需要給定一個adapter序列；

-f -F，-t -T用來截取reads。

-5 和-3也是用來截取reads，分別對應5『端和3』端，這兩個選項與上面的-f和t有什麼不同呢，-f 和-t是人為指定截取範圍，比如首尾各5bp，得到的reads是相同長度；-5 和-3是根據質量值來截取，低質量數目可能不同，最終得到的reads長度也不同；

-W 滑動窗口過濾，這個類似於計算kmer，默認是4個鹼基；

-M -W選擇的窗口中，鹼基平均質量值，默認是Q20，如果這個區域窗口平均低於20，則認為是一個低質量區域，處理掉。

-Q，-q，-u，-n是與過濾低質量相關的

-Q 控制是否去除低質量，默認自動去除，設置-Q關閉；

-q 設置低質量的標準，默認是15，也就是質量值小於15認為是低質量鹼基，一般我們設置20，常說的Q20；

-u 低質量鹼基所佔百分比，並不是包含低質量鹼基就把一條reads丟掉，而是設置一定的比例，默認40代表40%，也就是150bpreads，包含60個以上低質量的鹼基就丟掉，只要有一條reads不滿足條件就成對丟掉；

-n 過濾N鹼基過多的reads；

-L 關閉reads長度過濾選項；

-l 接一個長度值，小於這個長度reads被丟掉，默認是30，這個在處理非illumina測序數據時很有用。

-c 是對overlap的區域進行糾錯，所以只適用於pairend reads。

報告格式選項

-j 輸出json格式報告文件名

-h 輸出html 格式報告文件名，可以用瀏覽器直接查看

-w 使用線程數，默認是3

最後是控制split選項，有時候單條reads文件太大，可以分割為多份分別比對，在合併bam結果，這樣可以提高效率。

-s 切割數目，默認是0，不分割；

-d 輸出前綴位數，默認是4，0001,002這種命名，如果設置為3，就是001,002這種；

-？輸出幫助信息；

六、使用案例：

fastp -i reads.1.fq.gz -I reads.2.fq.gz -o clean.1.fq.gz -O clean.2.fq.gz -z 4 -q 20 -u 30 -n 10 -h clean.html