請問現在三代測序的reads用什麼比對?

三代測序的read與二代截然不同,那麼它是用什麼比對的呢..難不成用回blast了?


PacBio官方軟體用的是BLASR:PacificBiosciences/blasr · GitHub

Gene Myers用的是DALIGN: thegenemyers/DALIGNER · GitHub

MHAP: http://biorxiv.org/content/early/2014/08/14/008003, marbl/MHAP · GitHub

Heng Li推出的BWA-MEM: lh3 (Heng Li) · GitHub

一般的小些的基因組,比如幾百M的,直接用SMRT PORTAL的GUI界面,點幾下滑鼠就可以坐等完美拼接了。基因組拼接以後就是個無腦活。

三代有一個優點是官方的軟體做的很人性化,一般微生物的拼接,就是打開SMRT PORTAL,選個Protocol,設下基因組大小大致多少。(當然這些GUI背後的腳本運行過程,有log詳細的記錄)

拼完以後所有統計圖、數據都是羅列的很全,點點滑鼠就可以了。

目前只有較大基因組的混拼之類,你需要根據實際情況去調整拼接策略、參數。當然,偷懶點的話,可以直接去一些生信雲服務廠商那邊尋求支持,完全使用PacBio數據denovo拼接人基因組(Reference-Quality denovo assemblies),在DNAnexus的節點上跑,大約是2天可以拼完,而且參數全部是優化好的。所以搞生信的,我建議是把精力從「如何拼接一個基因組」轉換到「拿到基因組序列後,可以分析什麼」這個方向上,因為前者培訓一個小學生只要10min,而目前的所有生信公司服務只提供到拼完一個基因組,後面的事情無法流水線化,賺不了容易錢。


如果你要的樣品測序測序信息需要保密的話,只要給公司提供了滿足建庫質量的DNA就可以,不一定必須告訴他們具體信息。公司測序後會給你做好出去低質量序列和拼接這樣的基本分析的。


pacbio測序數據是什麼格式?為避免造假應該和測序公司要哪種格式的數據呢?我有兩株細菌送公司做pacbio de novo測序,公司要求必須提供種屬信息,說是不同細菌建庫方法有區別,很暈啊。


推薦閱讀:

本科生物專業,打算申請美國生物信息學研究生,期間多學習計算機知識,畢業後在美國找CS工作,靠譜嗎?
基因組測序為什麼沒完沒了?
計算機領域從事生物信息的牛人有哪些?
生物信息學本科階段應該掌握哪些技能知識?
為什麼同一個物種的基因組裡,有的基因序列進化快,有的則進化慢?

TAG:生物學 | DNA測序 | 生物信息學 | PacBio |