標籤:

基因組測序技術有哪些?

據稱LifeTechnologies公司發布台式基因測序儀IonProton,只需1000美元即可在一天時間內完成個人全基因組測序。這與之前的技術有哪些區別?


關鍵詞:semi-conductor, non-optic (半導體而非光學成像)

Next Generation Sequencing 的三大平台:Illumina的HiSeq/MiSeq,ABI的Solid,Life Tech的Ion PGM/Torrent (話說454算么,通量不高的說)

三者都是邊合成邊測序的(sequence by synthesize),Ion Torrent之所以快且便宜在於檢測技術另外兩個不同。

HiSeq/MiSeq和Solid都是根據每加一個(Solid是加兩個)鹼基-&>釋放熒光-&>照相-&>讀取該位置的熒光信息

而Ion Torrent根據的是PCR反應時,每加上一個鹼基會釋放一個H離子,導致pH變化;因此Ion Torrent採用半導體(semiconductor)技術讀取pH變化來辨別序列信息

補充一個網上找的表格:

價格什麼的和我了解的(美西)差不多:Ion Torrent大概200~300K,HiSeq 600~750K(根據地區,購買時間,和sales rep熟不熟而浮動)

而且不考慮library製備時間的話,Ion Torrent一個run是8小時,HiSeq一個run是27小時(HiSeq還分fast run和普通run,基本是3到5天完成一個flowcell)

但是呢

1. Ion Torrent很多參數是預計值,如果沒記錯的話剛開始他們是說今年年末晶元的通量會達到120Gb,現在變成60Gb了,所以。。。

2. 準確率這個實在很難說,個人經驗是至少對於HiSeq來說100bp(其實70bp左右就下降了)以上就不大能有99%了

這張表格就可以看出Ion Torrent可以達到測一個人類基因組1000刀(提取DNA,建library另算)。人類基因組3Gb,個人測序經驗(還是HiSeq來的,而且是RNA-seq,參考性堪憂。。。)一般70~80%的reads是可比對到refseq;所以呢把錯誤率(accuracy),可比對性(mappability)都算上的話20X的測序深度(depth)還是有的,這個深度對基因組測序來說可以接受了

最後的最後:

Ion Torrent的發明人Jonathan M. Rothberg(同時也是454的發明人,不過已經離開Life Tech)帶領的團隊也參加了Genomics X Prize, "the first Team that can build a whole human genome sequencing device and use it to sequence 100 human genomes within 30 days or less, with an accuracy of no more than one error in every 1,000,000 bases sequenced, with an accuracy rate of at least 98% of the genome, and at a recurring cost of no more than $1,000 (US) per genome."

在30天內,以不超過1000刀一個基因組的價格測100個人(組委會選了100個100歲以上的老人,這是找長壽基因的節奏吧);對於98%以上的序列,錯誤率不超過1/1,000,000。

Illumina木有參加這個比賽哦

參考資料:

Illumina:http://res.illumina.com/documents/products/techspotlights/techspotlight_sequencing.pdf

Life Tech:Semiconductor Sequencing Technology

cost summary:The Ion Torrent Proton compared to the HiSeq 2500

Archon X Prize:Archon X Prize


現在時髦的 nextGen sequencing 技朮,在 wiki 上一查,有十數個。這面提的這個是第 6 個:http://en.wikipedia.org/wiki/DNA_sequencing#Ion_semiconductor_sequencing

看了官網介紹:http://www.invitrogen.com/site/us/en/home/Products-and-Services/Applications/Sequencing/Semiconductor-Sequencing/Semiconductor-Sequencing-Technology/Ion-Torrent-Technology-How-Does-It-Work.html

基本概念還是挺清楚的。用加入一個新 nucleotide 時的 ph 值變化來測,而不是 ligate,掃描照相,切割這樣的複雜過程,據說速度就快了。

質量不清楚。要從獨立機構把不同技術作比對才知道。

我對現在的片子是否能把人的全部基因組掃過,是否有足夠的 coverage 還有懷疑。不過,這個,理論上只是時間問題。



剛好,前段時間開了知乎專欄,計劃專門定期更新關於NGS技術、生物信息和基因組學的內容。這個答案就修改自專欄的第一篇文章:從零開始完整學習全基因組測序(WGS)數據分析:第1節 測序技術,在這裡我把其中關於基因測序技術相關的內容抽取了出來,這包含了整個基因測序技術的發展歷史,希望對大家有用。另外,目前已經處於淘汰邊緣的技術這裡就不再述說了,包括:ABI SOLID、Roche 45等這些早期第二代測序技術。

在正式回答之前,我還是多說一句:所謂測序,簡單來說其實就是將DNA化學信號轉變為計算機可處理的數字信號。

以下正文:

現在的基因測序已不同於3-5年前了,可以說已是時下熱門,但它從第一代開始發展至今其實已經有40年的時間了!

在這個技術發展的更迭歷程中,測序讀長從長到短,再從短到長。雖然就當前形勢來看第二代短讀長測序技術在全球範圍內上仍然佔有著絕對的壟斷位置,但第三測序技術也已在這幾年快速地發展著。測序技術的每一次變革和突破,都對基因組學研究,疾病醫療研究,藥物研發,育種等領域產生巨大的推動作用。所以在里我將對當前最主流的測序技術以及它們的測序原理做一個比較全面的介紹。

圖1. 測序技術發展歷程

第一代測序技術

第一代DNA測序技術用的是1975年由桑格(Sanger)和考爾森(Coulson)開創的鏈終止法或者是1976-1977年由馬克西姆(Maxam)和吉爾伯特(Gilbert)發明的化學法(鏈降解). 並在1977年,由桑格老人家(那時他還年輕)測定了第一個基因組序列——噬菌體phiX-174,全長只有5,375個鹼基。雖然與今日的技術比起來根本不算什麼,但自此之後,人類獲得了窺探生命本質的能力,並以此為開端真正步入了基因組學時代。

研究人員在Sanger法的多年實踐之中不斷對其進行改進。在2001年,完成的首個人類基因組圖譜就是以改進了的Sanger法為基礎進行測序的。Sanger法的核心原理是:由於ddNTP(4種帶有熒游標記的A,C,G,T鹼基)的2』和3』都不含羥基,其在DNA的合成過程中不能形成磷酸二酯鍵,因此可以用來中斷DNA的合成反應,在4個DNA合成反應體系中分別加入一定比例帶有放射性同位素標記的ddNTP(分別為:ddATP,ddCTP,ddGTP和ddTTP),然後利用凝膠電泳和放射自顯影后可以根據電泳帶的位置確定待測分子的DNA序列(圖2. Sanger)。這個網址為Sanger測序法製作了一個小短片,形象而生動。

但值得注意的是,在測序技術起步發展的這一時期中,除了Sanger法之外其實還出現了一些其他的測序技術,如焦磷酸測序法、連接酶法等。其中,焦磷酸測序法是後來Roche公司454技術所使用的測序方法,而連接酶測序法是後來ABI公司SOLID使用的測序方法,但他們的核心手段都是利用了Sanger中可中斷DNA合成反應的ddNTP。

圖2. Sanger測序發原理

第二代測序技術

總的來說,第一代測序技術的主要特點是測序讀長可達1,000bp,準確性高達99.999%,但其測序成本高,通量低等方面的缺點,嚴重影響了其真正大規模的應用。因而第一代測序技術並不是理想的測序方法。經過不斷的技術開發和改進,以Roche公司的454技術、illumina公司的Solexa/HiSeq技術和ABI公司的SOLID技術為標記的第二代測序技術誕生了。第二代測序技術在大幅度提高測序速度的同時,還大大地降低了測序成本,並且保持了高準確性,以前完成一個人類基因組的測序需要3年時間,而使用二代測序技術則僅僅需要1周,但其序列讀長方面比起第一代測序技術則要短很多,大多只有100bp-150bp。

圖3. 是第一代和第二代測序技術測序成本作了一個簡單的比較,可以看出自第二代測序技術發展出來之後,歷史開始發生根本性的改變,測序的成本開始快速實現斷崖式下降,也就是業內經常提到的超摩爾定律現象。

圖3. 測序成本比較(來源:NIH網站)

接下來我以illumina(目前最大、最成功的第二代測序技術公司)的技術為基礎簡要單介紹第二代測序測序技術的原理和特點。

目前illumina的測序儀佔全球75%以上,以HiSeq系列為主。它的機器採用的都是邊合成邊測序的方法,主要分為以下4個步驟:

圖4. illumina測序原理(來源:illumina官網)

1)DNA測序測序文庫製備,圖4-1

簡單來說就是把一堆亂糟糟的DNA分子用超聲波打斷成一堆在一定長度範圍內的小DNA片段。目前除了一些特殊的需求之外,基本都是打斷為300bp-800bp長的序列片段,並在這些小片段的兩端添加上不同的接頭【注】,構建出單鏈DNA文庫,以備測序之用;

【注】接頭在illumina中一般分為P5和P7接頭,其中一個帶有和flow cell上的探針反向互補的序列,以完成待測序列和探針結合的作用,另外一個接頭帶有barcord序列以區分不同的樣本。連接接頭反應,其原理為序列打斷後加鹼基A,隨後接頭T單鹼基互補連接。

2)測序流動槽(flowcell),圖4-2

flowcell是用於吸附流動DNA片段的槽道,也是核心的測序反應容器——所有的測序過程就發生在這裡。當文庫建好後,這些文庫中的DNA在通過flowcell時會隨機附著在flowcell表面的槽道(稱為lane)上。每個flowcell有8個lane(圖5),每個lane的表面都附有很多很多的接頭,這些接頭能和建庫過程中加在DNA片段兩端的接頭相互配對,這就是為什麼flowcell能吸附建庫後的DNA的原因,並能支持DNA在其表面進行橋式PCR的擴增,理論上這些lane之間是不會相互影響的,也即是說,測序時他們都在獨立反應。

圖5. flowcell(實物 VS 示意圖)

3)橋式PCR擴增與變性

圖6. 橋式PCR擴增(來源:illumina官網)

這是二代測序技術的一個核心特點。橋式PCR以flowcell表面所固定的序列為模板,進行橋形擴增,如圖6所示。經過不斷的擴增和變性循環,最終每個DNA片段都將在各自的位置上集中成束,每一個束都含有原來單個DNA模板的很多分拷貝,這一過程的目的在於實現將單一鹼基的信號強度進行放大,以達到測序所需的信號要求。

4)測序,如圖4-4和圖7所示

圖7. 邊合成邊測序(來源:illumina官網)

測序方法採用邊合成邊測序的方法。向反應體系中同時添加DNA聚合酶、接頭引物和帶有鹼基特異熒游標記的4種dNTP(如同Sanger測序法)。這些dNTP的3』-OH被化學方法所保護,因而每次只能添加一個dNTP,這就確保了在測序過程中,一次只會被添加一個鹼基。同時在dNTP被添加到合成鏈上後,所有未使用的遊離dNTP和DNA聚合酶會被洗脫掉。接著,再加入激發熒光所需的緩衝液,用激光激發熒光信號(圖7),並有光學設備完成熒光信號的記錄,最後利用計算機分析將光學信號轉化為測序鹼基。這樣熒光信號記錄完成後,再加入化學試劑淬滅熒光信號並去除dNTP 3』-OH保護基團,以便能進行下一輪的測序反應。

Illumina的這種每次只添加一個dNTP的技術特點能夠很好的地解決同聚物長度的準確測量問題,它的主要測序錯誤來源是鹼基的替換,目前它的測序錯誤率在0.7%-1%左右。測序周期以人類基因組重測序為例,30x-50x測序深度對於Hisq系列需要3-5天時間,而對於2017年初最新推出的NovaSeq系列則只需要40個小時!

表1. 測序量比較(雙流動槽為例,如為單流動槽則測序量減少為下表的一半,時間不變)

*一次測序的數據總產量的單位Gb,不是計算機位元組,而是測序鹼基的數目(Giga base)*

圖8. NovaSeq與其他測序儀測序通量的比較(來源:illumina官網)

上面表1和圖8是NovaSeq和其他測序系列的比較,數據相當好。按照這個數據量估算,一台NovaSeq 6000(S4)在跑滿的情況下,一年就可以測序6400多人!而且按照以往的經驗,illumina的官方公布的數據都是偏於保守的,我們在實際的使用過程中發現高質量(Q30)的read其實佔到了總數據的90%以上,遠高於官方公布的75%,數據的總產量也同樣更高。

第三代測序技術

這是一個新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies的納米孔單分子測序技術為標誌,被稱之為第三代測序技術。與前兩代相比,最大的特點就是單分子測序,測序過程無需進行PCR擴增,超長讀長,以下圖9是PacBio SMRT技術的測序讀長分布情況,平均達到10Kb-15Kb,是二代測序技術的100倍以上,值得注意的是在測序過程中這些序列的讀長也不再是相等的,下文有解析!

圖9. PacBio SMRT 測序read讀長分布(來源:PacBio官網)

PacBio SMRT

PacBio SMRT技術其實也應用了邊合成邊測序的思想,並以SMRT晶元為測序載體(如同flowcell)。基本原理是: DNA聚合酶和模板結合,用4色熒游標記A,C,G,T這4種鹼基(即是dNTP)。在鹼基的配對階段,不同的鹼基加入,會發出不同的光,根據光的波長與峰值可判斷進入的鹼基類型。

圖9. PacBio SMRT 測序原理

這個DNA聚合酶是實現超長讀長的關鍵之一,讀長主要跟酶的活性保持有關,它主要受激光對其造成的損傷所影響。PacBio SMRT技術的一個關鍵點是在於如何將反應信號與周圍遊離鹼基的強大熒光背景區別出來。他們利用的是ZMW(零模波導孔)原理:如同微波爐壁上可看到的很多密集小孔。這些小孔的直徑是有嚴格要求的,如果直徑大於微波波長,能量就會在衍射效應的作用下穿透面板從而泄露出來(光波的衍射效應),從而與周圍小孔相互干擾(光波的干涉)。如果孔徑能夠小于波長,那麼能量就不會輻射到周圍,而是保持直線狀態,從而可起到保護的作用。同理,在一個反應管(SMRTCell:單分子實時反應孔)中有許多這樣的圓形納米小孔,,即 ZMW(零模波導孔),外徑100多納米,比檢測激光波長小(數百納米),激光從底部打上去後不會穿透小孔進入上方的溶液區,能量會被限制在一個小範圍(體積20X 10-21 L)里(圖10-A),正好足夠覆蓋需要檢測的部分,使得信號僅僅只是來自於這個小反應區域,孔外過多的遊離核苷酸單體依然留在黑暗中,從而實現將背景噪音降到最低的目的。

PacBio SMRT技術除了能夠檢測普通的鹼基之外,還可以通過檢測相鄰兩個鹼基之間的測序時間,來檢測鹼基的表觀修飾情況,如甲基化。因為假設某個鹼基存在表觀修飾,則通過聚合酶時的速度會減慢,那麼相鄰兩峰之間的距離會增大,我們可以通過這個時間上的差異來檢測表觀甲基化修飾等信息(圖11)。

圖11. PacBio SMRT 檢測甲基化修飾(來源:PacBio官網)

SMRT技術的測序速度很快,每秒約10個dNTP。但這麼快的測序速度也帶來了一些明顯的缺點——測序錯誤率比較高(這幾乎是目前單分子測序技術的通病),可以達到10%-15%,而且以缺失序列和錯位居多,但好在它的出錯是隨機的,並不會像第二代測序技術那樣存在一定的鹼基偏向,因此可以通過多次測序來進行有效糾錯。

Oxford Nanopore

Oxford Nanopore 的MinION是另一個比較受關注的第三代測序儀,俗稱U盤測序儀,它真的很小,我親手拿過,並拆過,圖12(左)!這家公司開發的納米單分子測序技術與以往的測序技術相比都不一樣,它是基於電信號而不是光信號的測序技術!

圖12. Oxford Nanopore MinION

這個技術的關鍵點在於他們所設計的一種特殊納米孔,孔內共價結合分子接頭。當DNA分子通過納米孔時,它們使電荷發生變化,從而短暫地影響流過納米孔的電流強度(每種鹼基所影響的電流變化幅度是不同的),最後高靈敏度的電子設備檢測到這些變化從而鑒定所通過的鹼基(圖13)。

圖13.MinION 測序原理

納米孔測序以及其他第三代測序技術,有可能會徹底地解決目前第二代測序平台的諸多不足。另外,MinION的主要特點是:讀長很長,而且比PacBio的都長得多,基本都是在幾十kb上百kb以上,最新的數據顯示可以達到900 kb!錯誤率是5%-15%,也是隨機錯誤,MinION最大的特點除了極小的體積之外,就是數據將是可實時讀取的,並且起始DNA在測序過程中不被破壞!這真是個可以上天的能力。然鵝,遺憾地多說幾句,目前還沒真正公布,細節也不知,自從2012開過一次發布會之後,就沒什麼聲響了。

這種納米孔單分子測序儀還有另一大特點,它能夠直接讀取出甲基化的胞嘧啶,而不必像二代測序方法那樣需要事先對基因組進行bisulfite處理。這對於在基因組水平直接研究表觀遺傳相關現象有極大的幫助。下面是對PacBio和Oxford Nanopore這兩家第三代測序技術公司的測序儀做的一個簡單比較,可以看出其實成本還是蠻高的,質量也只是還行,期待他們的下一次進化吧。

總結

以上,便是對各代測序技術的原理做了簡要的闡述。在這個比較的過程中,可以看到測序成本,讀長和通量是該測序技術先進與否的三個重要指標。其實第一代和第二代測序技術除了通量和成本上的差異之外,測序的核心原理都來自於邊合成邊測序的思想。第二代測序技術的優點是通量大大提升,成本大大減低,使得昔日王榭堂前燕,可以飛入尋常百姓家。總之,只有變成白菜價,才能真正對大眾有意義;但它的缺點是所引入PCR過程會在一定程度上增加測序的錯誤率,並且具有系統偏向性,同時讀長也比較短。第三代測序技術是為了解決第二代所存在的缺點而開發的,它的根本特點是單分子測序,不需要任何PCR的過程,這是為了能有效避免因PCR偏向性而導致的系統錯誤,同時提高讀長,但這個技術還不是很成熟,需要再進化,成本也偏高。

圖14. 全球測序儀數量分布

參考文獻

1. Sanger, F. Nicklen, S. DNA sequencing with chain-terminating. 74, 5463–5467 (1977).

2. Mardis, E. R. Next-generation DNA sequencing methods. Annual review of genomics and human genetics 9, 387–402 (2008).

3. Shendure, J. Ji, H. Next-generation DNA sequencing. Nature biotechnology 26, 1135–45 (2008).

4. Metzker, M. L. Sequencing technologies - the next generation. Nature reviews. Genetics 11, 31–46 (2010).

5. Niedringhaus, T. P., Milanova, D., Kerby, M. B., Snyder, M. P. Barron, A. E. Landscape of Next-Generation Sequencing Technologies. 4327–4341 (2011).

6. Rothberg, J. M. et al. An integrated semiconductor device enabling non-optical genome sequencing. Nature 475, 348–52 (2011).

最後,還是按照慣例,歡迎感興趣的各位關注我的微信公眾號:解螺旋的礦工 更及時了解更多信息。


當前主流市場上採用的測序儀的種類,測序原理,準確度以及應用匯總如下表(整理自華大測序和北京市計算中心):

(知乎內不能編輯表格,差評,只好貼圖啦)


我們明年就要測了...對於樓上的問題,我們現在發現一個目的基因但是NCBI里報道的都是400bp左右的基因片段,我們現在需要的是全基因,通過PCR得到這400bp的小片段我們可以通過基因組序進行比對讓後重新設計引物就可以得到目的基因的全序列了。當然也可以通過Inverted
PCR得到全序列,但是一個菌株里有很多個這樣的目的基因需要得到全序列,那麼測基因組是最好的方法


推薦閱讀:

酒量是基因決定的,還是後天鍛煉的?
如何評價張鋒和 Jennifer 對於 CRISPR 專利權的爭奪?
既然基因的本質是為了使自己延續下去,那為什麼會出現丁克的現象呢?
人類是猿類進化而來的,為何現在的猿類沒法進化成人?

TAG:基因 | DNA測序 |