麻煩想諮詢一個關於illumina 測序出的reads的問題?

我最近有一篇文章需要大修,審稿人有一條意見是這樣的:「Further, the MiSeq now generates reads of 250 by default and the latest chemistry supports reads of up to 300 bp.「我想請問的是現在從哪裡能免費下載到這樣的真實數據?還有這類偏長的illumina reads的測序精度是否會下降?順便再問一句,現在有沒有illumina平台的read是,測序精度達不到99%以上,大概97%,98%這樣的?比方說廉價的個人測序?


從哪裡能免費下載到這樣的真實數據?

NCBI SRA(sequencing read archive)

還有這類偏長的illumina reads的測序精度是否會下降?

會下降。主要原因是DNA聚合酶在擴增cluster里的每一個template的時候並不是完全同步的,而且read越長測到後面不同步的template會越多。

現在有沒有illumina平台的read是,測序精度達不到99%以上,大概97%,98%這樣的?比方說廉價的個人測序?

測序精度更多的是和酶的保真度以及測序的同步率有關(見我回答的上一個問題)。這不是最耗成本的東西。所以即使犧牲精度,成本也不會降低多少。


首先要搞清楚,illumina的平台分成Miseq,Hiseq和Nextseq三種,其中Miseq讀長長,通量低(換句話說也就是成本高)。所以,如果你需要高質量的數據,Miseq是最好的,如果你要廉價的話,可以選擇Hiseq。這裡討論的時是你的研究組自己掏錢做測序的情況。

如 @半夢半醒 所說,精度對於二代測序而言不是最耗成本的東西,實際上Hiseq的成本優勢是通過高通量體現出來的。大多數情況下,經過正確的filter,Miseq和Hiseq所產的數據,除了讀長,精度上區別不大。

如果你選擇使用別人做的測序數據,那麼通常,你根本不需要考慮讀長和精度之間有沒有必然的聯繫,因為有效率的做法是把可以獲得的數據全部下載下來,通過QC篩選出可用的。

我不知道你做的是什麼物種。除了NCBI SRA以外,人和一些模式生物都有自己的測序資料庫。比如個人比較信任的Encode和ModEncode,能夠被納入這兩個project的研究組個個牛氣衝天,他們做出來的數據有比較高的可信度;當然,具體到每個case,還是要自己QC。

現在NGS已經越來越成熟了,事實已經證明,illumina點對了技能點(短讀長,高精度,大通量)。當前,精度和覆蓋度上的問題完全是可以通過通量的增加來彌補的。個人認為,illumina當前在做的主要是市場細分,通過已經成熟的平台來完成各種各樣特殊的測序任務(比如檢測expression,methylation,DNA-protein interaction),賣試劑盒已經比賣測序儀更有搞頭了。

但是讀長短這個問題很難被通量的提升所解決(我自己就在被這個問題折磨……),大家也都在朝著這個方向努力,不過看起來illumina平台在這方面的潛力兌現的非常緩慢,所以長遠來看各種三代測序還是很有機會迎頭趕上,雖然它們的精確度和成本現在都還是問題。


這不是一個建議,只是一個看法。因為沒有說讓你去幹什麼。

大概一年以前就可以測雙端250了,就算質量再低,可用部分也比雙端150要強。實際上,加起來的可用長度,怎麼也有四百多。

順便再問一句,現在有沒有illumina平台的read是,測序精度達不到99%以上,大概97%,98%這樣的?比方說廉價的個人測序?

你要低質量的read有啥特別的用途?


推薦閱讀:

基因測序在美國和中國都有哪些商業模式?
如何評價華大推出的Revolocity測序儀?
3C,4C,5C以及HiC測序技術都有些什麼不同?
基因測序技術出現後是不是老的生物分類有很多都被推翻了?
為什麼到現在才有第一個「單個線粒體的DNA序列」?「單線粒體測序」有何意義?

TAG:生物學 | DNA測序 | 生物信息學 | 分子生物學 | 全基因組測序 |