20160405 illumina 測序原理介紹

目前我們接觸到的很多生物信息學的技術,都是基於NGS技術的,比如RNA-Seq,ChIP-Seq,FAIRE-Seq,ChIA-PET,Hi-C等等。所謂的NGS就是Next Generation Sequencing,翻譯為「下一代測序技術」,或者是「第二代測序技術」。之所以這麼叫,是因為相比較於第一代測序技術其測序通量有了很大的提升。

其實,二代測序比較常見的有羅氏454測序,Illumina等。但目前最為常用的NGS技術就是illumina測序技術,它能夠保證在幾十個小時內產生幾百G甚至上T的測序數據,完全能夠滿足高通量測序的通量要求。並且其測序準確程度也是完全能夠保證。我在這裡很決斷的說,在目前高通量測序的科研領域,Illumina測序絕對是主導地位的,幾乎沒有其他的公司可以撼動它。因此,我們這篇文章就Illumina測序的原理做一個比較詳細的介紹,希望對大家入門生物信息學有所幫助。

目錄

  1. 一些常用基本概念的介紹

  2. 建庫
  3. 橋式PCR
  4. 測序 & Illumina為什麼這麼短!
  5. 下期預告

一些常用基本概念的介紹:

  • flowcell 是指Illumina測序時,測序反應發生的位置,1個flowcell含有8條lane
  • lane 每一個flowcell上都有8條泳道,用於測序反應,可以添加試劑,洗脫等等
  • tile 每一次測序熒光掃描的最小單位
  • reads 指測序的結果,1條序列一般稱為1條reads
  • bp base pair 鹼基對,用于衡量序列長度
  • 雙端測序 只一條序列可能比較長如500bp,我們可以兩端每端各測150bp
  • junction 上面說的雙端測序,中間會留有200bp測不到的東西,我們叫junction
  • adapter 就是測序中需要的一段特定的序列,有類似於引物的功能
  • primer PCR中的引物

下圖就是一台illumina最新的X Ten測序儀。

下圖就是flowcell,圖中黑色的小線條就是lane,每一個lane中整齊排列了無數個tile,只可惜我們肉眼看不到。

圖片引用:41j.com/blog/2012/04/ne

下面開始正式介紹測序反應

1.建庫

  • 由於Illumina測序策略本身的問題,導致其測序長度不可能太長,目前最好的X Ten也就是雙端各150bp,所以不可能直接拿整個基因組去測序,所以在測序的時候需要先打斷成一定長度的片段,這個根據需要用不同的策略,一般測人的基因組,我們是將其打斷成300 ~ 500bp的長度。這個是根據跑膠控制的。

  • 打斷以後會出現末端不平整的情況,用酶補平,所以現在的序列是平末端。
  • 完成補平以後,在3端使用酶加上一個特異的鹼基A
  • 加上A之後就可以利用互補配對的原則,加上adapter,這個adpater可以分成兩個部分,一個部分是測序的時候需要用的引物序列,另一部分是建庫擴增時候需要用的引物序列
  • 進行PCR擴增,使得我們的DNA樣品濃度足夠上機要求。
  • 建庫的示意圖如下圖所示,引用自 tucf-genomics.tufts.edu

2.橋式PCR

  • 將上述的DNA樣品調整到合適的濃度加入到flowcell中,再加入特異的化學試劑,就可以使得序列的一端與flowcell上面已經存在的短序列通過化學鍵十分強健地相連,如下圖。圖中不同的顏色表示的是兩種不同的adpater,分別對應序列之前加入的兩種adpater

  • 引用:i.ytimg.com/vi/t0akxx8D

  • 連接以後就正式開始橋式PCR。首先進行第一輪擴增,將序列補成雙鏈。加入NaOH強鹼性溶液破壞DNA的雙鏈,並洗脫。由於最開始的序列是使用化學鍵連接的,所以不會被洗。
  • 加入緩衝溶液,這時候序列自由端的部分就會和旁邊的adpater進行匹配
  • 進行一輪PCR,在PCR的過程中,序列是彎成橋狀,所以叫橋式PCR,一輪橋式PCR可以使得序列擴增1倍
  • 如此循環下去,就會得到一個具有完全相同序列的簇,一般叫cluster

整體流程如下圖所示:

引用自:tucf-genomics.tufts.edu

  • 形成這種1個cluster,1個cluster的形態,在整個flowcell中看上去,示意圖如下。其中的每1個cluster就算是1群完全相同的序列。

引用自:intechopen.com/source/h

3.測序

  • 測序的過程反而簡單了不少。就是來一個primer,然後加入特殊處理過的A,T,C,G四種鹼基。特殊的地方有兩點,一個是脫氧核糖3號位加入了疊氮基團而不是常規的羥基,保證每次只能夠在序列上添加1個鹼基;另一方面是,鹼基部分加入了熒光基團,可以激發出不同的顏色。
  • 特殊處理的脫氧核糖核酸,引用自:http://www.oezratty.net/,圖中的核糖的羥基應該換成-N2的疊氮基團。

  • 在測序過程中,每1輪測序,保證只有1個鹼基加入的當前測序鏈。這時候測序儀會發出激發光,並掃描熒光。因為一個cluster中所有的序列是一樣的,所以理論上,這時候cluster中發出的熒光應該顏色一致。一個測序掃描圖片如下:

  • 隨後加入試劑,將脫氧核糖3號位的—N2改變成—OH,然後切掉部分熒光基團,使其在下一輪反應中,不再發出熒光。如此往複,就可以測出序列的內容。示意圖如下,引用自http://www.gendx.com/:

  • 那為什麼Illumina測序會有長度限制呢?主要是下面2點
    1. 測序時,經過長時間的PCR,會有不同步的情況。通俗一點講,比如一開始1個cluster中是100個完全一樣的DNA鏈,但是經過1輪增加鹼基,其中99個都加入了1個鹼基,顯示了紅色,另外1個沒有加入鹼基,不顯示顏色。這時候整體為紅色,我們可以順利得到結果。隨後,在第2輪再加入鹼基進行合成的時候,就變成了,之前沒有加入的加入了1個鹼基顯示紅色,剩下的99個顯示綠色,這個時候就會出現雜信號。當測序長度不斷延長,這個雜信號會越來越多,最後很有可能出現,50個紅,50個綠色,這時候我們判斷不出來到底是什麼鹼基被合成。
    2. 測序過程中,使用的鹼基是特殊處理的,有一個非常大的熒光基團修飾。在使用DNA ploymerase的時候,酶的狀態也會受到底物的影響,越來越差。

到此,Illumina測序的相關內容就介紹差不多了。

最後,如果大家覺得文字比較單薄,還可以參考下面這個鏈接,講解得也十分詳細。測序原理視頻:Illumina測序原理

下期預告:在測序完成以後,我們怎麼有效地儲存數據?常用的有FASTA和FASTQ兩種格式,在下期文章中我會對儲存格式進行一個比較詳細地說明。

短期規劃:介紹儲存格式 -> 序列比對 雙序列比對 / 多序列比對 -> bowtie2, BWA -> samtools -> 用1組真實數據,手把手教你分析高通量測序結果 -> cufflink -> RNA seq 分析

如果各位有什麼特別想要提前知道的,或者想討論的技術,可以私信給我,我會儘早安排寫作。盡量保證1周1到2篇的更新速度。

-----------------------------------------------------------------

另外歡迎各位參加我們的知乎Live:

1. 知乎Live:如何快速入門生物信息學

(涉及內容:測序原理,生物信息學發展歷史,軟體的安裝與調試,入門路線圖,介紹了RNA-Seq的分析流程並給出實踐代碼);

2. 知乎Live: 生信進階第1課-重複Nature文章

(涉及內容:肺癌相關研究現狀,RNA-Seq單細胞測序,RNA-Seq的建庫方法,RNA-Seq的分析流程細節,相關生信圖的繪製);

3. 知乎Live:生信進階第2課-基因組序列

(涉及內容:介紹基因組的序列結構,hg19與hg38的區別,ENCODE計劃,常用的表觀組學實驗原理ChIP-Seq,Hi-C等,ChIP-Seq的標準處理流程,繪圖原理)

4. 知乎Live:不用編程怎麼做生物信息學

(涉及內容:介紹生物信息學入門的幾個層次,從命令行到圖形界面再到命令行,繪製生物進化樹,圖形界面分析平台,使用圖形界面處理RNA-Seq數據,使用圖形界面分析ChIP-Seq數據,UCSC genome browser,WashU genome browser)

推薦閱讀:

為什麼雙鏈文庫模板只有一條鏈可以結合到flow cell上?
如何看待 Illumina 推出 NovaSeq 系列測序儀?

TAG:生物信息学 | 测序 | Illumina |