基因測序的回顧與展望

04-16

自2005年人類基因組計劃（Human Genome Project, HGP）完成以來，其成果已經應用在了基礎科學、臨床醫療等各個領域，而測序人類基因組的成本也從HGP時的58億美元下降到了2014年的不足1000美元。這得益於技術的進步，二代測序技術的出現使得基因測序所需的成本與時間大大下降。

自從454公司開創先河發布第一種二代測序平台以來，Helicos、ABI的Solid、Illumina (Solexa) 等新二代測序平台不斷湧現，雖然各種測序平台在原理上各有獨到之處，但測序結果的都能歸結幾個主要指標：讀長、成本、通量。

讀長（read）指的是測序儀一個反應所能讀取的核苷酸長度。讀長以位元組(bp)為單位，例如Hiseq平台最常用讀長就是150bp，PE模式能達到300bp。而DNA是以染色體為單位存在的，染色體的長度以百萬bp計，人類最小的Y染色體也有60MB。完整的基因圖譜要靠無數短reads拼接組成，二代測序大部分時間都要花在拼接上。讀長越長，拼接工作量就越小，拼接中出現的錯誤也越少，所以對讀長這一指標的要求是越長越好。

第二個指標是成本，成本一般用每百萬鹼基花費價格（美元）衡量，比如使用Sanger法的第一代測序產生1MB測序數據要花 $2400，而第一種二代平台454需要 $10，現在用的最多的Illumina平台只需要 $0.05 ~ $0.15 。

最後一個指標是通量，通量這個詞乍聽起來有些抽象，其實通量可以類比成流量。流量=流速*橫截面積。通量=測序速度*同時進行的測序反應數量。也就是說通量實際上是測序速度和同時測序量兩個指標的綜合，直接關係到完成數據量的多少。二代測序的另一個名字就是高通量測序（High-throughput sequencing），通量throughput的中文翻譯還有吞吐量、產出量等，實際就是描述測序儀一次產生數據多少的能力，二代測序的最大優勢也正是高通量，以一台雙flow cell的Hiseq2500為例，一次運行27小時產出的數據量就多達60G，相當於20個人的完整基因組！

在成本和通量上，二代測序都可以說無可挑剔，但過短的讀長卻成了二代測序的硬傷。reads的大小只有幾百bp，而整個基因組的數據量往往多達數G，怎麼把這些不計其數的reads按順序拼成一個完整的基因組於是成了新物種測序的核心問題。基因序列的複雜性使得reads無法直接拼成染色體，而只能拼成一個個長片段，這種長片段我們稱為contig，然後我們再通過長片段建庫雙端測序等其他技術手段推測出contig的順序，把contig連成scaffold，再通過Hi-c等手段一步步還原成染色體。測序儀產生數據往往只要幾個星期甚至幾天，但後續的數據拼接卻長達幾個月甚至幾年，有些物種例如小麥甚至直到今天都沒能拼出質量合格的基因組圖譜！而即使是質量良好的基因組完成圖，也會有大量沒能確定序列的空缺（gap）。

如何解決這個問題呢？追求長度長的三代測序應運而生了，人們對基於納米孔技術的三代測序一度報以極大的希望。但納米孔技術的不成熟使得希望一再落空，最終向傳統光學信號妥協的picbio率先發布了實用化的三代測序儀，平均讀長達到了3000bp（3kb），而最高讀長甚至達到了40000bp（40kb），但成本與通量均弱於Illumina二代平台，只有300MB。

對於二代測序和三代測序的特點有一個形象的比喻：二代測序是吃米飯，三代測序是吸麵條。二代測序把基因組染色體打斷成了無數小片段，同時對許多小片段測序，如同吃米飯一樣一口就吃進去許多粒米。而三代測序則像是在吸長壽麵一樣，它不把長片段打碎，而是從長片段的一端像吃麵條一樣不把麵條咬斷一口氣吸下去，直到吸到另一端把面吃完。二代測序實現高通量的核心思想massively parallel（大規模平行測序）也正基於「吃米飯」的道理，通過把長片段打斷成小片段，同時對小片段進行測序，實現快速大量的完成測序。通過小片段來實現高通量，這不幸使得通量與讀長陷入了一個魚和熊掌不能兼得的困境。

讀長短帶來的另一個問題是我們無法保證測序儀測到的片段包含了整個基因組，可能我們測到的序列都只來自於一個染色體呢？所以我們就只能多測，甚至達到基因組原本大小的數十倍，才有把握覆蓋了整個基因組沒有漏網之魚，這也就是我們常說的覆蓋度，而數據量和基因組大小相差的倍數則成為測序深度。用高深度來實現高覆蓋度使得二代測序低成本高通量的優勢在一定程度上也被抵消了。

二代測序「吃米飯」

三代測序「吃麵條」

其實制約讀長的因素還有許多，picbio三代測序的讀長主要受制於酶活，而二代測序在Taq酶失活前就已經無法保證數據質量了，熒游標記物保留在DNA鏈上，隨DNA鏈的延伸會產生三維空間阻力導致DNA鏈延長到一定程度後會出現錯讀，此外還有蔟生長不同步，長片段難以完成橋式PCR等問題。以前在實驗室時來給我們講解的Illumina工程師就曾表示X ten的讀長設置的越短越好。

就我個人的觀點來看，在納米孔測序依然遙遙無期的今天，利用已經成熟的現有技術開發新測序平台不失為一個不錯的選擇。在不打斷片段的情況下對長片段進行多段同時測序，兼具了二代測序與三代測序的優點。具體的技術分析可以看我之後文章的介紹