生物信息百Jia軟體(十一):svsim

編者按

模擬數據其實是非常重要的,通過模擬數據可以方便評估一款軟體的準確性與敏感性。SV檢測一直是基因組分析中最難的一個問題,一方面是因為目前測序讀長過短,另一方面是因為SV類型多變,包括插入,缺失,易位,倒位,倍增等多種類型,通過svsim可以分別模擬每一種sv類型,然後可以利用wgsim對其進行模擬測序,之後可以用sv檢測軟體評估檢測的效率。

一、功能分類:

SV模擬軟體

二、軟體官網:

github.com/GregoryFaust

三、軟體介紹:

svsim的主要作用也是用於軟體的評估。因為模擬的變異事先知道數量和具體位置,可以用來評估軟體檢測的效率,包括敏感性與特異性。因為實際數據中的SV並不清楚是真實存在的還是誤差導致。svsim可以模擬出insertion,

deletion, duplication, inversion

和translocation五種sv變化,sv的長度在50bp或者以上,這也正是我們對sv的定義長度。小於這個就是indel了。

四、下載安裝:

git clone git://github.com/GregoryFaust/SVsim.gitcp SVsim/SVsim /usr/local/bin/

五、軟體使用:

選項 釋義

-i 輸入文件,這個文件非常重要,裡面列出SV的模式,後面我們會介紹如何書寫這個文件。

-r 基因組序列的索引,也是必須的,注意是索引文件,不是序列文件,序列文件也要在。

-o 輸出文件前綴

下面幾個選項只適用於全基因組模式

-d 每個事件在明顯的區域,可以加上試試,比較一下與不加-d的差別

下面幾個選項只適用於contig模式,主要都是用來控制contig模式時,如何輸出結果。

-c INT 在每個breakpoints事件前面取多長序列,默認是500

-l 如果設置-l,表示在INC/INR/INS/INV 這些SV事件中,只保留左邊斷點和bedpe的條目

-p INT 在每個事件後面取多長序列,默認也是500

下面兩個選項是通用的。

-n INT 每一行發生重複時間的次數,默認是1,可以用來控制模擬SV的數目

-s INT 設置一個隨機數種子,保證可重複

六、使用案例:

SVsim -i commands.sim -r genome.fasta -o output

七、注意事項:

1、由於SV分成多種類型,因此配置文件不容易書寫。


推薦閱讀:

對科學的選擇和邏輯武器的使用
熊爸爸 時逢秋暮露成霜 幾份凝結幾份陽
120-理查德.道金斯/尼爾.德格拉斯.泰森:對談答疑錄
祛除果蔬中的殘留農藥,就靠它了。
自然科學的基礎物理

TAG:生物信息學 | 基因組學 | 自然科學 |