生物信息百Jia軟體(二十):lumpy

生物信息百Jia軟體(二十):lumpy

來自專欄 基因學院

編者按

基因組結構變異SV的檢測一直都是當前基因組研究中非常困難的課題,由於二代測序多長過短,因此無論在優化演算法,也很難解決根本性的問題。因此,很多用於SV檢測的工具都沒有太理想的效果,lumpy也只是在前面軟體的基礎上進行優化,其實並沒有根本性的解決問題,不過算是多了一種新的解決方法了。

一、功能分類:

SV檢測

二、軟體官網:

github.com/arq5x/lumpy-

三、軟體介紹:

SV檢測一直是基因組研究領域的國際性難題,目前常用的方法包括四種:

第一種,利用pairend關係的reads,簡稱PEM的方法;

第二種,利用切割reads的方法,split read簡稱SR;

第三種,利用reads丰度信息,read depth簡稱RD;

第四種,利用序列拼接的方法;

lumpy是目前比較流行的一款SV檢測工具,它同時支持PEM與SR和RD三種模式。在biostar上很多用戶推薦,在lumpy所發的文章中,與Pindel,delly,gasvpro等軟體比較,也有不錯的效果。軟體使用也非常容易,不僅支持gemrline樣品,也支持somatic樣品。

四、下載安裝:

conda install -y lumpy

五、軟體使用:

lumpy支持快速和傳統兩種運行方式,如果想快速使用軟體默認功能,直接使用lumpyexpress軟體即可。

首先我們來介紹一下lumpy軟體的輸入文件,只需要短序列比對之後的bam文件即可,可以是bwa比對,也可以novoalign,yaha等,最好支持split

reads比對的工具。比對完成之後需要用samblaster處理一下,主要對bam文件不正常的比對結果進行標記,以便接下里進行處理。

bwa mem -R "@RG ID:id SM:sample LB:lib" human_g1k_v37.fasta sample.1.fq sample.2.fq | samblaster --excludeDups --addMateTags --maxSplitCount 2 --minNonOverlap 20 | samtools view -S -b - > sample.bam

bwa mem -R "@RG ID:id SM:sample LB:lib" human_g1k_v37.fasta sample.1.fq sample.2.fq

| samblaster --excludeDups --addMateTags --maxSplitCount 2 --minNonOverlap 20

| samtools view -S -b -

> sample.bam

接下來,從samblaster處理的bam文件中,將split比對和discordant比對的分別提取出來。

首先利用samtools view工具,設置-F 為1294,將discordant的比對提取出來,這裡我們同時利用samtools

sort進行排序,

samtools view -b -F 1294 sample.bam | samtools sort - > sample.discordants.sorted.bam

接下來,利用軟體只帶的extractSplitReads_BwaMem將splitreads提取出來,同樣直接輸出排序後的結果。

samtools view -h sample.bam | scripts/extractSplitReads_BwaMem -i stdin | samtools view -Sb - | samtools sort - > sample.splitters.sorted.bam

利用lumpyexpress進行SV檢測

lumpyexpress -B sample.bam -S sample.splitters.sort.bam -D sample.discordants.sort.bam -o output.vcf

六、使用案例:

tumor-normal樣品

lumpyexpress -B tumor.bam,normal.bam -S tumor.splitters.bam,normal.splitters.bam -D tumor.discordants.bam,normal.discordants.bam -o tumor_normal.vcf

七、注意事項:

1、如果一次處理多個樣品,可以添加多個pe和sr的選項,只不過每個單獨設置id,bam_file等選項即可;

2、bwa比對之後的bam文件處理samtools處理之外,還需要進行一些處理,不能直接輸入給程序。


推薦閱讀:

啥?原來樹木年輪是這樣子!漲姿勢
我們應該為這個世界的單調乏味負責……
人類壯陽簡史
溫室大棚降溫方法及注意事項
歐洲探測器第一張新軌道照片中的火星隕石坑

TAG:生物信息學 | 自然科學 | 生物學 |