生物信息百Jia軟體(二):fastp

編者按

目前序列質控過濾的軟體非常多,其實有些並不是很好用,使用起來也不是很方便。這款fastp是其中的佼佼者,功能強大,操作簡單,已經可以完成絕大部分的更新了。而且作者來自國內,加了微信可以直接交流。

一、功能分類:

數據質控過濾

二、軟體官網:

github.com/OpenGene/fas

三、軟體介紹:

fastp是一款用來處理測序數據的工具,作者是陳實富,來至於深圳海普洛斯公司。他們將這款工具開源免費使用,這一點是非常值得稱讚的。其實國內很多測序公司都有自己開發的數據處理程序,不過很多都在內部使用。

1、fastp可以實現處理數據的一次性處理,包括過濾低質量,過濾adapter,截取reads,split分割大文件等操作

2、支持長reads,也就是不僅僅適用與illumina測序平台,還可以處理Pacbio和Iontorrent的測序數據

3、直接輸出質控和統計報告,包括json格式和html格式;

4、使用c++寫的,執行效率非常高;

四、下載安裝:

1、源代碼安裝

git clone https://github.com/OpenGene/fastp.gitcd fastpmakemake install

2、編譯好版本

wget http://opengene.org/fastp/fastpchmod a+x fastp

五、軟體使用:

-i,-I是輸入文件

-o,-O是輸出文件,軟體默認是根據擴展名識別壓縮文件,所以輸出文件需要加上*.gz擴展名;

-6 指定質量體系是phred64。目前主流測序數據都採用phred33,如果從NCBI下載以前hiseq 2000以及之前的數據,可能是Phred 64質量體系。

-z 輸出壓縮格式。給定一個數字1-9,調整壓縮比率和效率的平衡;

-A 關閉adapter trimming,默認軟體會切出adapter,如果設置-A,則關閉這個功能;

-a 給定一個adapter序列文件;對於pairend reads 軟體可以自動識別adapter並處理,對於single reads,需要給定一個adapter序列;

-f -F,-t -T用來截取reads。

-5 和-3也是用來截取reads,分別對應5『端和3』端,這兩個選項與上面的-f和t有什麼不同呢,-f 和-t是人為指定截取範圍,比如首尾各5bp,得到的reads是相同長度;-5 和-3是根據質量值來截取,低質量數目可能不同,最終得到的reads長度也不同;

-W 滑動窗口過濾,這個類似於計算kmer,默認是4個鹼基;

-M -W選擇的窗口中,鹼基平均質量值,默認是Q20,如果這個區域窗口平均低於20,則認為是一個低質量區域,處理掉。

-Q,-q,-u,-n是與過濾低質量相關的

-Q 控制是否去除低質量,默認自動去除,設置-Q關閉;

-q 設置低質量的標準,默認是15,也就是質量值小於15認為是低質量鹼基,一般我們設置20,常說的Q20;

-u 低質量鹼基所佔百分比,並不是包含低質量鹼基就把一條reads丟掉,而是設置一定的比例,默認40代表40%,也就是150bpreads,包含60個以上低質量的鹼基就丟掉,只要有一條reads不滿足條件就成對丟掉;

-n 過濾N鹼基過多的reads;

-L 關閉reads長度過濾選項;

-l 接一個長度值,小於這個長度reads被丟掉,默認是30,這個在處理非illumina測序數據時很有用。

-c 是對overlap的區域進行糾錯,所以只適用於pairend reads。

報告格式選項

-j 輸出json格式報告文件名

-h 輸出html 格式報告文件名,可以用瀏覽器直接查看

-w 使用線程數,默認是3

最後是控制split選項,有時候單條reads文件太大,可以分割為多份分別比對,在合併bam結果,這樣可以提高效率。

-s 切割數目,默認是0,不分割;

-d 輸出前綴位數,默認是4,0001,002這種命名,如果設置為3,就是001,002這種;

-?輸出幫助信息;

六、使用案例:

fastp -i reads.1.fq.gz -I reads.2.fq.gz -o clean.1.fq.gz -O clean.2.fq.gz -z 4 -q 20 -u 30 -n 10 -h clean.html

推薦閱讀:

生物信息學100個基礎問題 —— 第5題 測序建庫的adapter
生物信息學100個基礎問題——第6~ 10題 答案公布
生物信息學100個基礎問題:問題及答案目錄
如何用DBN做回歸——對我之前提問的解答以及用DBN做回歸的

TAG:生物信息學 | 自然科學 |