現在基因測序的瓶頸主要在哪裡?精度?速度?

做相關研究的朋友測一次序大概需要2周左右的時間( http://news.zhenduan.org/?p=3971.html ),我想問的是瓶頸主要在哪裡?

精度:

現在測序的精度有沒有問題?

速度:

測序的速度瓶頸在哪裡?數據量大?演算法複雜?


從測序儀上講:

第一代的測序方法,主要是sanger測序,準確性高,測序長度好(1K以上),但是測序通量低,而且價格昂貴。

第二代測序儀,主要有illumina的,solid和454幾個常用的測序平台。第二代測序儀最大的有點就是價格便宜,通量非常高,準確性99%。 但是illumina主要的問題是測序長度短,100bp以上錯誤率就會大大提高。另外兩個可以更長,但是成本也略比illumina高。短序列的reads在做基因組裝的時候,遇到大的重複片段就會很麻煩。

第三代的測序儀,即所謂的單分子測序,可以測的長度很高,但是會引入第二代測序很少出現的indel(插入,缺失)的情況。

從數據分析上看,高通量,大數據的分析,在計算機的存儲和計算資源的消耗上都是很高的。

從實驗室提取DNA,但最後得到分析結果,中間需要經歷 建庫-測序-比對/組裝-變異檢測-注釋等 一系列實驗和數據分析過程,第二代測序的方法動輒單個樣本就上T的數據量都會使得分析過程耗時耗資源。


@姚笑天 的答案基本說的很完整了。理想情況下是可以以高精度測足夠長,如果有技術可以直接測人類基因組全長,就什麼問題也沒有了。現在流行的測序方式是二代測序,通量高,價格低,而且很準確(錯誤率在千分位),但是長度有限,目前最長應該只能到200,再長準確度就沒法保證了。所以之後propose了第三代測序,比如Pacific Bio的單分子測序,ph測序,還有至今沒有見到實物產品的nanopore測序,三代測序可以測很長,就避免了很多計算的問題,但是錯誤率很高(Pacific Bio好像是10%),所以還是沒辦法取代二代測序。

至於速度問題,二代測序基於邊合成邊測序,之前需要擴增,所以應該主要的限制是DNA的合成速度吧,如果想從根本上有顯著提升,只能期待三代測序,使用完全不同的原理。至於後續分析根據測序要研究的問題就有很多情況了。


一代:通量太低,要拿到足夠的數據就非常費錢

二代:通量大,特別是Hiseq,一個lane跑下去估計夠一代的跑好幾個月甚至一年,所以相對來說成本低很多;但是讀段太短,要拼長很困難,所以瓶頸主要在拼接組裝的演算法上,因為拼接往往比測序要費時費力的多

三代現在貌似還不成熟,聽說錯誤率比較高


一代的Sanger測序的讀長比較長(可以有七八百),而且比較方便測簡單樣品。缺點是單位價格高,而且樣品必須是單一的。如果不是,你就得通過克隆文庫一類的手段把樣品弄成單一的。這成本和人力就高了去了。

二代裡面,454前幾個月死掉了。illumina用的較多,現在可以雙端150或者犧牲通量達到雙端250,已經快達到了454的長度。現在illumina用得最多,在基因組、轉錄組等領域都有用。缺點是有的時候單個樣品的測序通量嫌高,barcode不夠用,不能用更多樣品分攤通量。

三代裡面,我們用過PacBio的,測序長度非常長,拼結核桿菌可以一次拼成一兩個碎片(illumina測MTB通常只能拼成上百個碎片)。但缺點是單條read的錯誤率非常高,現在使用多條read相互抵消錯誤,但這樣就很難做定量的SNP分析或者轉錄組分析什麼的。


作為學院測序第一人!( ̄□ ̄||開玩笑的,學院測序的牛人不是去華大就是去北大了。。。)我可以很負責任的告訴題主,目前基因測序的瓶頸不在精度,也不在速度,而是「錢!」。確切的說就是在保證一定精度和速度的條件下,想盡辦法減少測序成本。這才是現在基因測序要做的。下面放張wiki的圖:

圖中可以看到,現在大部分的測序方法的準確率已經達到99.9%,低的都能達到98%,準確率已經不是問題。而速度這個參數與錢比,根本不值一提。打個比方,你想要測測自己的全基因組,現在有兩個公司,一個7萬刀一小時給你做好,一個1萬刀7小時給你弄好,你選哪個?為什麼現在Illumina的東西賣的最好,你看上面的圖就知道,因為便宜!($0.05-0.15 per 1 million bases)

那為什麼還要開發新的方法?因為還不夠便宜!現在你去給自己用Illumina的東西去測序,一個人是48000刀(當然團購有折扣的,低至一折哦)。

但是我們的目標是——1000刀一個人!希望在不久的將來,人人都能有自己的基因組數據,到時候人們互相吐槽的時候就會說,「我*,你怎麼生的?比我多一個AT鹼基對啊!」


測序只是最基礎的一環,測完後的解讀才是最艱難的點,因為你不能解讀就找不到應用的出口。

目前的測序技術就是讓你知道鹼基序列是什麼,但這些鹼基序列如何影響疾病,影響表達,人類只搞懂了1%。

過20贊再補充


準確度(不是精度),讀長對基因組的組裝有重要影響:

理論上,如果生物基因組沒有重複、雜合的影響,即使短序列(30~40bp)的也能夠完美的組裝出其基因組。但是考慮二者的影響(測序錯誤造成影響某種程度與雜合類似)則僅僅利用短reads來組裝是不現實的,因此還需要大片段文庫(bac, fosmid)來輔助組裝,而大片段文庫主要還是傳統的方法,這就是主要的成本所在(1s M~10s M rmb),當然比10年前成本已經大為降低。

3代測序其中一個優勢就是解決2代讀長過短的缺點,因此理論上,如果reads長度能跨過repeat region的長度,則理論上就能夠實現基因組的完美組裝,之前有人(可能是Myers,不太記得)認為&>10kb的片段足夠跨越任意repeat region。除此之外,2代通常在GC含量高或低的區域存在bias(sanger測序也有這樣的問題),這樣一個後果是造成基因組某些區域無法檢測到從而造成基因組的不完整,3代在這一點上也是號稱無GC content bias. 當然,雖然3代目前吹的天花亂墜,但是實際應用中的也就PacBio(ion torrent算2.5代),其通量現在無法與illumina比,另外其reads的質量之差可以用喪心病狂來形容(&> 15%),其矯正仍需要2代的reads,不過相應的軟體太少,而且最要命的是慢的要死(我們自己的項目32 core已經跑了4個月還是沒有結果),而直接利用raw reads拼接的軟體幾乎沒有(需要重新設計實現高容錯度),因此PacBio目前也只用在少數細菌基因組,老實說,沒有人會對細菌的組裝感興趣吧。

最後,以發展的眼光,3代遲早會取代2代,如果真有這一天,會帶來很多改變,對搞bioinformatics的人來說,研究基於De brujin組裝演算法的人會失業,主流拼接演算法又會回到overlap-layout-consensus,後者實現起來更簡單,速度更快,結果會更好。當然,如果某一天,長度達到基因組全長,搞拼接演算法的人會集體失業。


複製自己的專欄文章來回答基因測序中的關鍵問題。

本文主要闡述和對比基因晶元和下一代基因測序技術。

有監督基因晶元檢測原理

?原理與酶免ELISA類似:樣品製備(核酸分離與複製)-核酸標記-雜交-洗片-圖像處理

?定性(或半定量分析)

?靈敏度與特異性是基因晶元技術中最核心的問題之一

基因晶元製造技術簡析

基因晶元根據製備技術不同,可以分為兩大類:cDNA晶元和寡核苷酸晶元(Oligo)

cDNA 晶元

寡核苷酸晶元(Oligo)

cDNA晶元特點:

以玻片為載體,cDNA為探針;

成本低廉;

相對oligo有定量優勢;

實驗程序複雜;

可重複性差;

Oligo晶元特點:

以矽片為載體;

穩定,質量可控;

實驗程序可標準化;

工業化程度高;

Oligo晶元是基因晶元製造技術的趨勢。

基因晶元VS下一代基因測序(RNA-sq)

國際學術界人士對基因晶元VS基因測序(RNA-sq)看法

』The only wasted microarray data are those that are of poor

quality or where there is insufficient data (MIAME or clinical annotation) to

allow their appropriate use. There are certainly plenty of worthless microarray

data sets out there but these were poor before the advent of RNAseq.』

Prof.Robert Clarke, Georgetown university,2014

』Many people do profiling to get an idea which known genes and pathways might be

involved in a biological response (to a treatment, to a disease, to a cell development...).

Microarrays are perfectly fine here. 『

Prof.Jochen,Justus-Liebig-Universit?t Gie?en,2014

『We have switched completely to RNA-Seq. It provides quantitative

and comprehensive expression data.』

Michael Iadorala, National Institutes of Health,2014

『For all the results generating from each steps in the procedure of microarrays

technique, the possible standarderror of the means ranged from 5-10%. When you multiple these 5-10% 3 to 4 times (steps), the final possible standard error of the means will be completely unreliable. 『

Pro. MH Zhou, University of HongKong, 2014

『I would choose next generation sequencing for my next expression profiling study.

The cost is dropping fast and its unbiased nature are indeed preferable over microarrays』.

Prof. Oliver, Stanford University, 2014

學術界對基因晶元的未來持不樂觀態度。但是,這些學術人士是從基因研究的量化和準確性的需求而做出的判斷。

基因晶元技術面臨的挑戰

需要自身技術提高的關鍵點:

?1. 提高基因晶元的特異性;

?2. 簡化樣品製備和標記操作;

?3. 增加信號檢測的靈敏度;

?4. 高度集成化樣品製備、基因擴增、核酸標記及檢測儀器的研製和開發。

來自基因測序技術的壓力:

?1. 基因測序技術價格幾乎每六個月降價一半;

?2. 基因測序相關操作和數據分析標準化進展很快,為以後大通量分析奠定基礎;

?3. 更廣泛的全基因表達應用;

基因晶元的發展趨勢:會不會被下一代基因測序(NGS)取代?

?在學術研究領域,尤其以下分支,NGS因全基因測序,特異性靈敏性高和快速走低的價格會在10-15年取代基因晶元技術

染色質免疫沉澱(Chromatin immunoprecipitation)

基因表達(Gene Expression)

細胞遺傳學(Cytogenetics)

?但在以下應用領域,基因晶元技術10-15年因簡單操作,標準化,通量大和暫時的價格優勢而無法被取代(就像分子診斷暫時無法取代elisa一樣)

基因分型(Genotyping)

臨床診斷(Diagnostics)


個人覺得,二代測序,難度主要在測序文庫的構建和數據分析。

測序文庫的構建,很耗人力。如果是重頭測序,需要構建不同級別的文庫。雖然有標準的實驗步驟,不同人構建的文庫質量還是有差異的。

數據分析中,有兩個難題:重複序列和雜合性。

構建不同級別的文庫,就是為了解決重複序列的問題。

生物大多數是多倍體,人是二倍體。測序組裝的時候,我們假設生物不同染色體組差異不大,但是有些生物倍性複雜,給組裝帶來難度。

不知道題主測序精度指的是什麼?

測序儀讀取序列的精度還是序列組裝的質量?

測序儀的精度已經很高了。序列組裝需要一定的覆蓋度。


其實這個問題,我想簡單的說一下:

一代測序,也就是sanger測序,是最普通的測序的方法,這個方法的原理很簡單,最基本的應用就是獲取一段基因的序列信息,其實題主說的測序應用很少應該不包括這個方法,至少在我們實驗,這個方法還是得到了很大的應用的;

二代測序,Next-generation Sequencing,又被成為高通量測序,現在主要針對二代測序的平台主要是illumina測序平台,lifetech(現在被thermo收購了)的ion torrent平台,還有之前的Roche 454平台,這些平台都各有各的優勢,454的讀長長,illumina通量高,時間快,ion torrent成本較低,但是這三個平台都沒有客服二代測序最深刻的短板——測序成本相當之高。這裡說的成本高不只是花錢花的多,而且後期的測序數據出來個10個G都是少的,處理這些數據需要極強的生物信息學的背景,這方面的人才的成本真心的高;另外我見過幾個實驗室買過二代測序儀,主要就是Hiseq和ion torrent,但是真正用起來的實驗室真心的少,大部分還是在那貢著吧!!所以說題主說的精度和速度只是其中的一個原因(這兩個就先不吐槽了),想做二代測序,你先成就一個生物信息學的博士再說吧,否則免談。。。要不就乖乖的送公司做——成本在10-20W之間!!

三代測序沒怎麼接觸過,不過聽說名字叫做單細胞測序,先膜拜一下!!!


新手亂說,錯了請打臉並糾正

前面說的準確度什麼的99%我感覺都是說測序儀對鹼基的識別,但是在後續信息分析階段,有一些比對演算法、變異識別軟體等的問題,會導致最終測序得到的結果準確率下降很多,fusion,cnv什麼的先不說,一些複雜的indel準確性會較低。還有有的區域二代測序就是測不準。所以種種原因導致最終的檢測結果準確性降低。


測序序列短,不能拼接。第三代單分子測序儀移動速度快,錯誤多


我個人人現在測序非常快了 也很便宜

早期的晶元幾乎已經淡出歷史舞台 因為1g的片段4-5k就能搞定 但就測序而言 沒有什麼瓶頸

但是:測序出來的結果需要解讀,這個詮釋過程更重要

國內目前的生物信息學做得太爛,只有片子沒有醫生給你診斷有啥用呢?


有沒有一個靠譜的測試方法,大數據分析吋代已經到來了,,光讀技術乜如此先進,,解碼人DNA組學怎麼還這麼磨嘰,,?


推薦閱讀:

為什麼生物沒有進化出專職產生 ATP 的器官?
人躺在床上為什麼會突然有墜落感?
1959到1961大饑荒,我們提倡「代食品」,食用小球藻。但據說是用小便繁殖。現在網上搜不到危害,請賜教?
CRISPR/Cas9 在研究基因功能中的應用是怎樣的?

TAG:生物學 | DNA測序 |