生物信息百Jia軟體(四):wgsim

生物信息百Jia軟體(四):wgsim

來自專欄 基因學院

編者按

序列模擬工具可以用來模擬測序數據,通過模擬數據可以方便進行軟體評估。

一、功能分類:

測序數據模擬

二、軟體官網:

github.com/lh3/wgsim

三、軟體介紹:

wgsim是一塊用於高通量數據模擬的軟體,whole genome simulation。這款軟體可以模擬出illumina測序數據,並且可以自由調整測序reads的讀長,插入片段大小以及錯誤率等,使用起來比較方便。模擬數據主要用於軟體的測試與評估。例如對序列拼接軟體的評估。因為模擬數據是根據已有的參考序列來的,我們可以將模擬出來的數據進行拼接,再將拼接的結果與原序列進行比對。這樣就能每次調整單因素變數,例如比較不同reads讀長,不同插入片段大小或者不同錯誤率條件下,對序列拼接的影響。

也可以為參考序列模擬變異位點,例如點突變、片段獲得缺失等,然後模擬數據,評估軟體是否可以檢測出這些變異位點。這個過程中,模擬出可控條件的數據是非常重要的。

但是,這裡面我們也要認識到,實際測序中影響的因素是非常多的,模擬數據是很難和實際數據相匹配的,比如拼接軟體對模擬數據表現出非常好的效果,但是對實際測序數據可能非常差。

四、下載安裝:

git clone https://github.com/lh3/wgsim.gitgcc -g -O2 -Wall -o wgsim wgsim.c -lz -lm

五、軟體使用:

軟體比較簡單,輸入文件為基因組序列,fasta格式,輸出為illumina的fastq格式,這些格式我們在前面都介紹過。然後是一些選項。

-e 是錯誤率,默認是0.02

-d reads兩頭的距離,也就是插入片段長度,默認250bp,注意插入片段本身是包含reads長度的,而不是reads之間的距離

-s 是-d插入片段的偏差,默認是20,也就是-d的值加減20,我們知道插入片段長度並不是固定的,而是一個範圍

-N 是測序的層數,控制輸出數據量

-1 是reads1長度,默認70bp

-2 是reads2長度,默認70bp

-r 突變率

-R -X 都是調整indels的

-h 是單倍體模式

下面我們來運行一下

wgsim 參考序列 reads1 reads2 這裡插入片段我們選擇500bp,偏差-s在50,reads長度-1 -2為100bp,二者可以不一樣,其餘默認。

六、使用案例:

wgsim ref.fna reads1.fq reads2.fq -d 500 -s 50 -1 90 -2 90

七、注意事項:

1、模擬出的reads質量值是無法更改的,都是「I」,如果程序用到reads的質量值模擬數據就會有問題。

2、不支持Mate-pair文庫,就是即使把-d設置微6K,那麼它是不能像實際過程中發生環化的,兩條reads的方向和小片段還是一樣的。


推薦閱讀:

6500萬年前讓恐龍滅絕的小行星去哪裡了?
萬歲的生命:聽鄧興旺講植物的故事
【科普】ccdB篩選
女神越活越年輕的奧秘,生物學諾獎得主告訴你 | 遠讀
圖中的老鼠為什麼會滿地打滾?的出生地是哪裡的?

TAG:生物信息學 | 自然科學 | 生物學 |