北大提升二代測序精度的新方法的具體原理是什麼?有什麼創新點?

如何看待北大黃岩誼教授團隊發明「優雅」新方法,刷新 DNA 測序精度,還有具體的原理是怎樣的呢,作為一個生物學研究生表示沒太看明白。

附:

北大發明「優雅」新方法,刷新DNA測序精度 | 深度報道


就知道一定會有人提問。真開心我認識原作者,手動@Alexis Voinov,文章主要作者之一。鼓掌~

我只能簡單解釋一下他們創新的原理,更詳細的還需要作者親自解釋。

二代測序都是Sequencing by synthesis(SBS),即邊合成邊測序,合成所需的鹼基底物都被加上了熒光基團,在合成的過程中,每配對成功一個鹼基,這個新連上的鹼基就釋放出一個熒光基團。

現在普遍使用的Illumina機器就是基於這種原理,把四種合成所需的基本鹼基ATCG,每一種都加上顏色不同的熒光基團,每一輪反應都添加四種鹼基,每完成一輪反應(即合成時產物上多添加一個和模板互補配對上的鹼基)拍一次照,通過顏色信號確認是哪種鹼基。

黃老師組的方法是在SBS的思路上做的優化。

首先,他們只用一種熒光基團,叫做Tokyo Green(因為我喜歡Tokyo所以我喜歡這個名字)。

其次,他們每一次反應只添加2種鹼基,一輪反應添加2次以cover4種鹼基,而且4種鹼基的熒光顏色相同。

最後,他們需要通過3次合成來確認鹼基。

那他們是怎麼做到的呢?

答案是用腦子,哈哈哈。

先來看個圖。

看起來不知道要做什麼對不對?

我一步步解釋下。

我們都知道,DNA基本的鹼基有ATCG共4種(不包括修飾等)。

如上圖,我們可以把這4個鹼基兩兩分為一組,即上圖兩兩鹼基之間的連線,可以分為6組(每組內的2個鹼基沒有先後順序)。給他們的小組都起個名字吧。

AT:W

AG:R

AC:M

CG:S

TG:K

CT:Y

再按能cover 4種鹼基把6個小組分成3個大組:

兩條橫線對應的兩個組(W和S),兩條豎線對應的兩個組(M和K),兩條對角線對應的兩個組(Y和R)。

測序合成時,每次都是順著模板鏈把整個一條DNA合成完,下一次合成時把合成產物擦掉沿著模板鏈再來一次。在每一個鹼基位置等待互補配對時,都要加入某一個鹼基大組(即先後加入2個小組),即WS、MK或YR。每加入一個小組,就讀一次熒光信號;每次合成中,同一個位置就會讀2次信號。對一條序列,共進行3次合成,每個位置總共就會讀6次有或無的信號。

那麼,理論上,這個位置如果是A,機器就會在且僅在加入的小組是W、M和R時讀到一共3次綠色的信號,即A=W∩M∩R。

對T、C和G,同理。

所以,由三次測序後得到綠色信號的是哪三組,取並集就可以得到這個位置的鹼基了。

再反過來看上面的圖,你會發現,其實A=W∩M或M∩R或W∩R,理論上測兩輪就夠了。

那為什麼還要測3輪呢?

為了防止某一輪讀錯咯。看,是不是靠腦子做到的?


@芝士喵 的邀請好積極……謝了……

拖了好幾天才把文章看完。自己不是做底層測序技術的,隨便談談好了。

首先是一些基礎知識和技術細節,不感興趣的可以跳過。

作者在正文里也提到了,第二代測序技術里的SBS(邊合成邊測序)又可以分成兩種子類別。文章作者按照領域內的習慣把它們稱為CRT(循環可逆鏈終止法)和SNA(單核苷酸追加法),不過我更喜歡用另一種分法——檢測合成以後的DNA分子,還是,檢測合成DNA時釋放的小分子化合物。

CRT可以說是隨機鏈終止法的直接發展。每輪反應同時投入四種修飾了3"羥基的dNTPs,每種鹼基對應不同的熒游標記。理想情況下,每輪反應中,模板鏈的反向互補鏈會且僅會延伸1個鹼基、且只有新合成的這1個鹼基有熒光信號,只要用光學系統識別這個熒光信號即可判斷這1個新和成的鹼基是什麼(例如Illumina/Solexa)。接下來去掉熒光基團和3"羥基上的修飾(往往熒光基團就是用來修飾3"羥基的),就可以進行下一輪的合成也就是對下一個鹼基進行測序了。通過把不可逆的雙脫氧修飾變成可逆修飾,大幅度減少了對每個模板鏈進行測序時需要合成的新鏈的條數——如果設備的檢測能力下限是100個分子同時發出的信號,那麼測100個鹼基序列時隨機鏈終止法理論上需要至少合成100x100條新鏈,而CRT法只需要合成99+100條,這就為提高測序通量提供了基礎。

這種方法的缺點在於,任何化學反應實際上都不可能是「完全」的,前面輪次摻入的熒光基團不可能被完全清除乾淨、可供新一輪反應使用的底物也會越來越少、拍照時的激發光也可能損傷DNA分子,所以隨著反應輪次的增加信號會越來越弱、雜訊會越來越大,最終錯誤率高到不可容忍。

SNA相比於CRT,在反應步驟上進行了大幅度的簡化——投入的dNTPs是不修飾或摻入時自動去修飾的,因此不再需要用單獨的反應步驟去除3"羥基的修飾基團和新摻入鹼基的熒光基團。既然新摻入的dNTPs是沒有修飾的,那當然就不能再一股腦把四種全加進去了,所以每次只投入1種dNTP,如果它正好跟模板鏈上的下1個或下n個鹼基配對,那就會被摻入到新合成的DNA鏈上去,同時釋放出某些小分子(DNA的合成是典型的縮合反應,A+B=A"B"+C)。通過定量地檢測小分子C(例如羅氏的454焦磷酸測序)或者C進一步反應產生的產物(例如Life的Ion Torrent檢測H+濃度變化),就可以判斷這輪反應里模板鏈的反向互補鏈到底被延伸了幾個鹼基,也就讀出了這一段序列。通過簡化反應步驟,SNA可以達到比CRT更長的測序讀長,還可以節省試劑成本、縮短測序時間。

而這種方法的缺點則在於,現有技術對小分子的定量檢測的準確性/解析度不夠,所以如果模板鏈上有多個連續的相同鹼基(在生物中很常見)時可能會出現定量錯誤,導致測得的連續相同鹼基個數出現錯誤。

這篇NBT文章里提到的本質上也是一種SNA方法,它的反應底物是在普通dNTP的第三個磷酸基的後面再綴上一個修飾基團得到的。縮合反應發生後產生的C是一個三磷酸化合物,會迅速被磷酸酶水解並釋放出一個熒光分子,通過定量檢測這個熒光分子進行測序。其特殊性在於,每遍(注意不是每輪)測序時,每輪反應加入的dNTP不是一種而是兩種,然後用多遍測序的方法來提供冗餘信息,最後利用冗餘信息對每遍測序過程中出現的錯誤進行糾錯。這部分的實現方法有其他答主介紹過了——第一遍用AC和GT、第二遍用AG和CT、第三遍用AT和CG,實際上任取其二就能在理想情況下讀出序列(且實際上仍有信息冗餘可以用於糾錯),三遍反應的冗餘信息更多,從而進一步降低了測序的錯誤率,最終達到文章里報道的200bp讀長無錯。注意這種「測三遍」和用完全相同的底物重複測三遍是不一樣的,後者的本質是通過多次重複在統計水平上減小/抹去錯誤,並不提供冗餘信息。


個人認為,這個方法的創新顯然不是測序原理,而是測序原理的實現方法。注意,實現方法。也就是說,它有極大的可能是為了繞開知識產權壁壘而產生的。意義不在於在原理上有多大幅度的創新(並沒有)或者在性能指標上有多少提高(並沒有),而在於這個實現方法很可能不侵犯任何現有的NGS相關的知識產權。

剛才提到過,黃教授團隊的這個方法作為一種SNA方法,主要優勢就包括試劑簡單成本低和反應簡單測序快,那麼從工程/商業角度出發完全可以以此做trade-off去提高原本是SNA方法短板的測序準確率。因為不是CRT方法所以應該能繞開Illumina的相關專利,同時,通過新的底物設計、檢測熒光信號而非化學信號,應該也繞開了羅氏和Life的SNA相關專利。更積極地看,整套實現方法本身的可專利性也不錯,考慮到黃教授的團隊2015年就發過相關文章,我猜相關專利申請也早就開展了?

綜上,我國可能會在不久的將來有一台(一系列)新的擁有自主知識產權的、性能基本達到主流水平的NGS測序儀問世。這可能才是這篇文章的作者們真正想要達成的目標吧。

最後,留幾個個人的小疑問:

對於多個連續相同鹼基,這個方法的糾錯能力到底有多強?

SNA成本低、反應速度快的優勢能抵消三遍測序帶來的成本和時間開銷嗎?

這個方法能體現出SNA的長讀長優勢嗎?


測序原理樓上已經說的很清楚,不在贅述。關於創新之處其實就是每個鹼基都測三遍,可能會在一定程度上提升測序準確度。但我沒有看nature biotech的原文,更沒有深入研究過業內同行是否對這種方法的測試,不太好說到底是否提升了準確率,提升了多少。其實solid測序平台,每個鹼基測兩次,號稱提升了準確率,可實際效果也並不太明顯。至於說這種測序儀的測序費用,實際應用和市場推廣方面我是不太看好的,畢竟現在是illumina公司一統二代測序江湖,而且三代測序也是方興未艾!


現在,在二代測序的研發是一個方向,但是,我認為在核酸提取這個基本方面更加應該創新。而這個方面很久沒有進展了


推薦閱讀:

為什麼 Illumina 最新測序儀能將全基因組測序價格降至 1000 美元?
第二代基因測序產品研發主要面臨哪些問題?
華大基因到底有多牛?
DNA 是否可以回溯?能否根據子女的 DNA 無損推導出父母的完整 DNA?

TAG:基因 | 北京大學 | 生物學 | DNA測序 | 基因組學 |