全面解讀第四代測序技術
納米孔測序技術(又稱第四代測序技術)是最近幾年興起的新一代測序技術。目前測序長度可以達到150kb。這項技術開始於90年代,經歷了三個主要的技術革新:一、單分子DNA從納米孔通過;二、納米孔上的酶對於測序分子在單核苷酸精度的控制;三、單核苷酸的測序精度控制。目前市場上廣泛接受的納米孔測序平台是Oxford Nanopore Technologies(ONT)公司的MinION納米孔測序儀。它的特點是單分子測序,測序讀長長(超過150kb),測序速度快,測序數據實時監控,機器方便攜帶等。這篇綜述重點總結了MinION測序儀的技術特點和應用領域。
一、 MinION測序技術簡介
MinION納米孔測序儀的核心是一個有2,048個納米孔,分成512組,由專用集成電路控制的flow cell。測序原理見圖1a所示:首先,將雙分子DNA連接lead adaptor(藍色),hairpin adaptor(紅色)和trailing adaptor(棕色);當測序開始,lead adaptor帶領測序分子進入由酶控制的納米孔,lead adaptor後是template read(即待測序的DNA分子)通過納米孔,hairpin adaptor的作用是DNA雙鏈測序的保證,然後complement read(待測序分子的互補鏈)通過納米孔,最後是trailing adaptor通過。在上述測序方法中,template read和complement read依次通過納米孔,利用pairwise alignment,它們組合成2D read;而在另外一種測序方法中,不使用hairpin adaptor,只測序template read,最終形成1D read。後一種測序方法通量更高,但是測序準確性低於2D read。每個接頭序列(adaptor)通過納米孔引起的電流變化不同(圖1c),這種差別可以用來做鹼基識別。
二、 MinION相對於其他NGS測序平台的優勢
1、鹼基修飾的檢測
納米孔測序技術可以檢測四種胞嘧啶(cytosine)鹼基修飾,分別為5-methycytosine,5-hydroxymethycytosine,5-formylcytosine和5-carboxylcytosine。檢測準確率為92%-98%。
2、實時測序監控
對於臨床實踐,實時獲取和分析DNA/RNA序列是一件很重要的事情。對於傳統的NGS測序,做到這一點非常不易。但對於MinION,實現起來相對容易。這不僅是因為MinION體積小,易操作等,更是因為在測序過程中單分子穿過納米孔,其電流變化可以檢測並識別,這種設計允許用戶在測序過程中根據實時結果做出一些判斷。
實時測序監控對於MinION針對特定目標序列測序有重要的應用(圖2):當DNA片段通過納米孔時,如果電流變化呈現與目標序列一樣的趨勢,則通過納米孔。如果DNA片段與目標序列呈現不同的電流變化趨勢,則不能通過納米孔。通過這樣的方式,實現目標序列的富集,從而顯著減少測序時間,對於在野外和即時診療有重要意義。
3、測得更長的read
用MinION測序儀,對於1D read可以獲得300kb長的read;對於2D read可以獲得60kb長的read。利用MinION測序儀產生的長read,研究人員設法填充了人參考基因組Xq24號染色體一個長50kb的gap。該區域存在多個CT47基因串聯拷貝,研究人員利用MinION的長read判斷該區域極有可能存在8個CT47基因拷貝(圖3)。
4、結構變異的檢測
NGS短序列的特徵使結構變異的檢測往往不準確。這個問題在癌症的檢測中尤其嚴重,這是因為癌症組織中充斥各種結構變異。研究人員發現利用MinION測得的幾百個拷貝的長read得到的結構變異結果比NGS平台測得的上百萬read得到的結果更可靠。
5、RNA表達分析
對於RNA表達分析,NGS平台測得的短序列帶來的問題是序列需要進行拼接,才能得到轉錄本。這給可變剪切研究帶來困擾。因為通常情況下NGS測序不能產生足夠的信息將不同形式的可變剪切區分開來。而利用MinION測序儀產生的長read,可以更好地解決這個問題。研究人員利用果蠅的Dscam1基因為例,其存在18,612種可變剪切形式,利用MinION測序儀可以檢測到超過7,000種可變剪切形式,而這樣的結果利用NGS的短序列測序是不能夠獲得的。
6、生物信息學配套軟體的發展
近些年來,隨著生物信息分析方法的發展,MinION測序reads成功比對參考基因組的比例已經從66%提升至92%。文章下面對各種工具的適用場景進行了分別介紹。工具概述見表1。
1、鹼基識別工具
Metrichor是ONT公司推出的基於隱馬爾可夫模型進行鹼基識別的軟體。它的使用需要網路連接。MinION註冊用戶需要獲得開發者賬號才能獲得軟體的源代碼。2016年初,兩個實驗室分別開發了Nanocall和DeepNano軟體。這兩個軟體都可以在本地運行,不需要網路連接。Nanocall基於隱馬爾可夫模型,可對1D read在本地進行鹼基識別;DeepNano基於recurrent neural network fr amework,可以獲得比隱馬爾可夫模型更準確的鹼基識別。
2、序列比對工具
傳統的NGS序列比對軟體不能滿足MinION序列比對的需求。這是因為MinION測序數據錯誤率相對高且序列長,即使調整參數也不能取得好的效果。在這種情況下,適合MinION測序數據的比對軟體應運而生。
MarginAlign是通過更好地估計MinION測序reads測序錯誤來源從而提高與參考基因組的比對效率。通過評估檢測到的變異,發現其顯著提高了比對的準確性。由於MarginAlign是基於LAST或BWA mem的比對結果進行優化,結果的最終準確性依賴最初的比對結果。
GraphMap是另一個用於MinION測序數據比對的軟體。它利用的是一種啟發式(heuristics)方法,對高錯誤率reads和長reads進行了優化。一項研究表明GraphMap比對的靈敏性可與BLAST媲美,且它對reads測序錯誤率的估計與MarginAlign相當。
3、從頭組裝工具
MinION測序數據不適合利用NGS數據組裝的de Bruijn圖法進行組裝,主要存在兩方面的原因。第一,de Bruijn圖法等方法依賴測序reads拆分的k-mer測序準確,而高錯誤率的MinION測序reads不能保證這一點;第二,de Bruijn圖的結構不適用長reads。
MinION測序數據的長reads更適合Sanger測序時期基於有overlap的共有(consensus)序列組裝的方法。需要的是在組裝前進行測序reads的糾錯。第一個基於這種原理進行組裝的研究組利用MinION數據組裝了一個完整的E. coli K-12 MG1655基因組,序列準確率達到99.5%。他們利用的流程稱為nanocorrect,首先利用graph- based,greedy partial order aligner方法進行糾錯,然後利用CeleraAssembler將糾錯後的reads進行組裝,最後利用nanopolish對組裝結果進行進一步提升。
4、單核苷酸變異檢測工具
Reference allele bias是一種在變異檢測中傾向於少檢測出變異的現象。該現象在測序reads錯誤率高的情況下尤為嚴重。
MarginAlign中的marginCaller模塊是研究機構開發的適用於MinION測序數據的變異檢測軟體。MarginCaller利用maximum-likelihood參數估計和多條測序reads序列比對來檢測單核苷酸變異。當計算機模擬出測序錯誤為1%時,測序深度在60X,marginCaller檢測出的SNV具有97%的準確率和完整度。另外一項研究中,研究者利用GraphMap方法,檢測人基因組的雜合變異,可以達到96%的準確率。利用計算機模擬的數據,GraphMap同樣可以高準確率,高完整度地檢測出結構變異。
Nanopolish也可以用來檢測變異。它用的是event-level alignment演算法。在該方法中,從參考基因組序列開始,依次評估參考基因組序列產生的電信號與測序reads的相似性進而依次修飾參考基因組序列,生成一個consensus read。直到consensus read與測序read產生的電信號足夠相似,將consensus read與參考基因組序列比較,得到變異。該方法在埃博拉病毒的研究中有大約80%的準確性。
PoreSeq採用與Nanopolish類似的演算法。它可以利用更低深度的測序數據獲得高準確率和高完整度的SNV檢測。在一項研究中,PoreSeq在16X測序深度下獲得99%準確率和完整度的SNV檢測,與marginAlign相比,它顯著降低了測序深度。
5、共有序列的測序(consensus sequencing)方法
MinION測序數據目前只有92%的準確性。在低深度測序的情況下,不能夠滿足類似單體型(haplotype phasing)和人樣品的SNV檢測的要求。文章提到的解決問題的方法是rolling circle amplication,它的原理是將一個片段進行多次擴增,在一個DNA分子上生成多個拷貝,這樣最終獲得的共有序列測序結果的準確率可以達到97%。
三、MinION目前的應用領域
1、即時檢測傳染源
NGS測序方法可以在醫院環境下進行傳染源等病菌的檢測,而MinION測序方法提供的是一種全新的體驗。MinION在測序讀長,攜帶的方便性,檢測時長方面具有NGS不可比的優勢。文獻記載從樣品準備到發現致病菌只需要6小時時間,而從樣品放置機器到發現致病菌只需要4分鐘。文章列舉了截至目前用MinION測序儀涉及研究的物種及詳細描述了西非爆發埃博拉病毒時,MinION測序方法在病毒檢測過程中起到的重要作用。
2、非整倍體檢測
MinION可以在胎兒非整倍體產前檢測中發揮重要作用。利用NGS平台,通常需要1-3周時間獲得結果。而利用MinION測序方法,文獻報道只需要4小時。
3、太空應用
在太空飛行中,發掘細菌和病毒是很困難的事情。大部分研究是將樣品帶回地球進行測序鑒定。目前,NASA準備利用MinION測序儀在國際空間站進行病菌的實時測序。
四、展望
1、PromethION
為了滿足研究人員對高通量測序的需求,ONT公司開發了一個台式納米孔測序儀—PromethION。PromethION有48個flow cell,可以單獨運行也可以並行。每個flow cell包括3,000個通道(channel),每天產生6Tb測序數據。
2、測序read準確性
目前MinION測序儀的測序準確率在92%左右。對於類似致病菌和可變剪切的發掘,這樣的測序準確率可以滿足需求。但是對於臨床檢測,通常read準確率需要達到99.99%。因此,文章提到ONT公司需要在測序相關的化學反應和鹼基識別軟體方面進行優化。
另外,文章提到MinION測序方法存在非隨機的測序錯誤。比如MinION不能很好處理長於6個核苷酸的同聚物的測序,同時缺少鹼基修飾檢測的內參訓練。如果這兩個問題能夠得到解決,共有序列(consensus)測序的準確率可以達到大於99.99%。
3、測序read長度
目前MinION測序長度達到150kb。在未來一段時間,可以期許其測序長度可以得到更大提升。
4、RNA直接測序
逆轉錄和PCR擴增會導致很多RNA自身信息的丟失,所以目前ONT公司和一些研究機構正在嘗試用納米孔技術進行RNA直接測序。之前的研究已經為此奠定了基礎,比如研究表明可以對tRNA進行單通道和固態納米孔(solid-state nanopore)檢測,且納米孔可以檢測DNA和tRNA的鹼基修飾。
5、單分子蛋白測序
目前,質譜(mass spectrometry)是做蛋白組分析較好的技術,但是對於靈敏性,準確性和解析度,目前的技術都存在局限性。2013年一項研究報道了酶介導的蛋白通過單通道納米孔。這項研究表明蛋白的序列特徵可以被檢測。這些發現為蛋白質納米孔測序奠定了很好的基礎。
參考文獻
The Oxford Nanopore MinION: delivery of nanopore sequencing to thegenomics community
來源:生信人作者:diangene
推薦閱讀:
※愛吃油膩嗎?很有可能這是天生的
※夫妻誰的基因決定了孩子智商和相貌?太准了!
※【別對媽媽說謊】父母都是雙眼皮,寶寶就一定是雙眼皮?
※為什麼醫學生應該了解遺傳諮詢?