生物信息百Jia軟體（十一）：svsim

05-13

編者按
模擬數據其實是非常重要的，通過模擬數據可以方便評估一款軟體的準確性與敏感性。SV檢測一直是基因組分析中最難的一個問題，一方面是因為目前測序讀長過短，另一方面是因為SV類型多變，包括插入，缺失，易位，倒位，倍增等多種類型，通過svsim可以分別模擬每一種sv類型，然後可以利用wgsim對其進行模擬測序，之後可以用sv檢測軟體評估檢測的效率。

一、功能分類：

SV模擬軟體

二、軟體官網：

https://github.com/GregoryFaust/SVsim

三、軟體介紹:

svsim的主要作用也是用於軟體的評估。因為模擬的變異事先知道數量和具體位置，可以用來評估軟體檢測的效率，包括敏感性與特異性。因為實際數據中的SV並不清楚是真實存在的還是誤差導致。svsim可以模擬出insertion,

deletion, duplication, inversion

和translocation五種sv變化，sv的長度在50bp或者以上，這也正是我們對sv的定義長度。小於這個就是indel了。

四、下載安裝：

git clone git://github.com/GregoryFaust/SVsim.gitcp SVsim/SVsim /usr/local/bin/

五、軟體使用：

選項釋義

-i 輸入文件，這個文件非常重要，裡面列出SV的模式，後面我們會介紹如何書寫這個文件。

-r 基因組序列的索引，也是必須的，注意是索引文件，不是序列文件，序列文件也要在。

-o 輸出文件前綴

下面幾個選項只適用於全基因組模式

-d 每個事件在明顯的區域，可以加上試試，比較一下與不加-d的差別

下面幾個選項只適用於contig模式，主要都是用來控制contig模式時，如何輸出結果。

-c INT 在每個breakpoints事件前面取多長序列，默認是500

-l 如果設置-l，表示在INC/INR/INS/INV 這些SV事件中，只保留左邊斷點和bedpe的條目

-p INT 在每個事件後面取多長序列，默認也是500

下面兩個選項是通用的。

-n INT 每一行發生重複時間的次數，默認是1，可以用來控制模擬SV的數目

-s INT 設置一個隨機數種子，保證可重複

六、使用案例：

SVsim -i commands.sim -r genome.fasta -o output

七、注意事項：

1、由於SV分成多種類型，因此配置文件不容易書寫。