生物信息百Jia軟體(十一):svsim
05-13
編者按
模擬數據其實是非常重要的,通過模擬數據可以方便評估一款軟體的準確性與敏感性。SV檢測一直是基因組分析中最難的一個問題,一方面是因為目前測序讀長過短,另一方面是因為SV類型多變,包括插入,缺失,易位,倒位,倍增等多種類型,通過svsim可以分別模擬每一種sv類型,然後可以利用wgsim對其進行模擬測序,之後可以用sv檢測軟體評估檢測的效率。
一、功能分類:
SV模擬軟體
二、軟體官網:
https://github.com/GregoryFaust/SVsim
三、軟體介紹:
svsim的主要作用也是用於軟體的評估。因為模擬的變異事先知道數量和具體位置,可以用來評估軟體檢測的效率,包括敏感性與特異性。因為實際數據中的SV並不清楚是真實存在的還是誤差導致。svsim可以模擬出insertion,
deletion, duplication, inversion 和translocation五種sv變化,sv的長度在50bp或者以上,這也正是我們對sv的定義長度。小於這個就是indel了。四、下載安裝:
git clone git://github.com/GregoryFaust/SVsim.gitcp SVsim/SVsim /usr/local/bin/
五、軟體使用:
選項 釋義
-i 輸入文件,這個文件非常重要,裡面列出SV的模式,後面我們會介紹如何書寫這個文件。
-r 基因組序列的索引,也是必須的,注意是索引文件,不是序列文件,序列文件也要在。-o 輸出文件前綴下面幾個選項只適用於全基因組模式-d 每個事件在明顯的區域,可以加上試試,比較一下與不加-d的差別
下面幾個選項只適用於contig模式,主要都是用來控制contig模式時,如何輸出結果。
-c INT 在每個breakpoints事件前面取多長序列,默認是500-l 如果設置-l,表示在INC/INR/INS/INV 這些SV事件中,只保留左邊斷點和bedpe的條目-p INT 在每個事件後面取多長序列,默認也是500下面兩個選項是通用的。-n INT 每一行發生重複時間的次數,默認是1,可以用來控制模擬SV的數目-s INT 設置一個隨機數種子,保證可重複六、使用案例:
SVsim -i commands.sim -r genome.fasta -o output
七、注意事項:
1、由於SV分成多種類型,因此配置文件不容易書寫。
推薦閱讀:
※對科學的選擇和邏輯武器的使用
※熊爸爸 時逢秋暮露成霜 幾份凝結幾份陽
※120-理查德.道金斯/尼爾.德格拉斯.泰森:對談答疑錄
※祛除果蔬中的殘留農藥,就靠它了。
※自然科學的基礎物理