20160405 illumina 測序原理介紹

01-29

目前我們接觸到的很多生物信息學的技術，都是基於NGS技術的，比如RNA-Seq，ChIP-Seq，FAIRE-Seq，ChIA-PET，Hi-C等等。所謂的NGS就是Next Generation Sequencing，翻譯為「下一代測序技術」，或者是「第二代測序技術」。之所以這麼叫，是因為相比較於第一代測序技術其測序通量有了很大的提升。

其實，二代測序比較常見的有羅氏454測序，Illumina等。但目前最為常用的NGS技術就是illumina測序技術，它能夠保證在幾十個小時內產生幾百G甚至上T的測序數據，完全能夠滿足高通量測序的通量要求。並且其測序準確程度也是完全能夠保證。我在這裡很決斷的說，在目前高通量測序的科研領域，Illumina測序絕對是主導地位的，幾乎沒有其他的公司可以撼動它。因此，我們這篇文章就Illumina測序的原理做一個比較詳細的介紹，希望對大家入門生物信息學有所幫助。

一些常用基本概念的介紹
建庫
橋式PCR
測序 & Illumina為什麼這麼短！
下期預告

一些常用基本概念的介紹：

flowcell 是指Illumina測序時，測序反應發生的位置，1個flowcell含有8條lane
lane 每一個flowcell上都有8條泳道，用於測序反應，可以添加試劑，洗脫等等
tile 每一次測序熒光掃描的最小單位
reads 指測序的結果，1條序列一般稱為1條reads
bp base pair 鹼基對，用于衡量序列長度
雙端測序只一條序列可能比較長如500bp，我們可以兩端每端各測150bp
junction 上面說的雙端測序，中間會留有200bp測不到的東西，我們叫junction
adapter 就是測序中需要的一段特定的序列，有類似於引物的功能
primer PCR中的引物

下圖就是一台illumina最新的X Ten測序儀。

下圖就是flowcell，圖中黑色的小線條就是lane，每一個lane中整齊排列了無數個tile，只可惜我們肉眼看不到。

圖片引用：http://41j.com/blog/2012/04/nextgen-sequencing-primer/

下面開始正式介紹測序反應

1.建庫

由於Illumina測序策略本身的問題，導致其測序長度不可能太長，目前最好的X Ten也就是雙端各150bp，所以不可能直接拿整個基因組去測序，所以在測序的時候需要先打斷成一定長度的片段，這個根據需要用不同的策略，一般測人的基因組，我們是將其打斷成300 ~ 500bp的長度。這個是根據跑膠控制的。
打斷以後會出現末端不平整的情況，用酶補平，所以現在的序列是平末端。
完成補平以後，在3端使用酶加上一個特異的鹼基A
加上A之後就可以利用互補配對的原則，加上adapter，這個adpater可以分成兩個部分，一個部分是測序的時候需要用的引物序列，另一部分是建庫擴增時候需要用的引物序列
進行PCR擴增，使得我們的DNA樣品濃度足夠上機要求。
建庫的示意圖如下圖所示，引用自 http://tucf-genomics.tufts.edu/home/faq

2.橋式PCR

將上述的DNA樣品調整到合適的濃度加入到flowcell中，再加入特異的化學試劑，就可以使得序列的一端與flowcell上面已經存在的短序列通過化學鍵十分強健地相連，如下圖。圖中不同的顏色表示的是兩種不同的adpater，分別對應序列之前加入的兩種adpater
引用：https://i.ytimg.com/vi/t0akxx8Dwsk/maxresdefault.jpg

連接以後就正式開始橋式PCR。首先進行第一輪擴增，將序列補成雙鏈。加入NaOH強鹼性溶液破壞DNA的雙鏈，並洗脫。由於最開始的序列是使用化學鍵連接的，所以不會被洗。
加入緩衝溶液，這時候序列自由端的部分就會和旁邊的adpater進行匹配
進行一輪PCR，在PCR的過程中，序列是彎成橋狀，所以叫橋式PCR，一輪橋式PCR可以使得序列擴增1倍
如此循環下去，就會得到一個具有完全相同序列的簇，一般叫cluster

整體流程如下圖所示：

引用自：http://tucf-genomics.tufts.edu/home/faq

形成這種1個cluster，1個cluster的形態，在整個flowcell中看上去，示意圖如下。其中的每1個cluster就算是1群完全相同的序列。

引用自：http://www.intechopen.com/source/html/49419/media/image2.png

3.測序

測序的過程反而簡單了不少。就是來一個primer，然後加入特殊處理過的A，T，C，G四種鹼基。特殊的地方有兩點，一個是脫氧核糖3號位加入了疊氮基團而不是常規的羥基，保證每次只能夠在序列上添加1個鹼基；另一方面是，鹼基部分加入了熒光基團，可以激發出不同的顏色。
特殊處理的脫氧核糖核酸，引用自：http://www.oezratty.net/，圖中的核糖的羥基應該換成-N2的疊氮基團。

在測序過程中，每1輪測序，保證只有1個鹼基加入的當前測序鏈。這時候測序儀會發出激發光，並掃描熒光。因為一個cluster中所有的序列是一樣的，所以理論上，這時候cluster中發出的熒光應該顏色一致。一個測序掃描圖片如下：

隨後加入試劑，將脫氧核糖3號位的—N2改變成—OH，然後切掉部分熒光基團，使其在下一輪反應中，不再發出熒光。如此往複，就可以測出序列的內容。示意圖如下，引用自http://www.gendx.com/：

那為什麼Illumina測序會有長度限制呢？主要是下面2點

測序時，經過長時間的PCR，會有不同步的情況。通俗一點講，比如一開始1個cluster中是100個完全一樣的DNA鏈，但是經過1輪增加鹼基，其中99個都加入了1個鹼基，顯示了紅色，另外1個沒有加入鹼基，不顯示顏色。這時候整體為紅色，我們可以順利得到結果。隨後，在第2輪再加入鹼基進行合成的時候，就變成了，之前沒有加入的加入了1個鹼基顯示紅色，剩下的99個顯示綠色，這個時候就會出現雜信號。當測序長度不斷延長，這個雜信號會越來越多，最後很有可能出現，50個紅，50個綠色，這時候我們判斷不出來到底是什麼鹼基被合成。
測序過程中，使用的鹼基是特殊處理的，有一個非常大的熒光基團修飾。在使用DNA ploymerase的時候，酶的狀態也會受到底物的影響，越來越差。

到此，Illumina測序的相關內容就介紹差不多了。

最後，如果大家覺得文字比較單薄，還可以參考下面這個鏈接，講解得也十分詳細。測序原理視頻：Illumina測序原理

下期預告：在測序完成以後，我們怎麼有效地儲存數據？常用的有FASTA和FASTQ兩種格式，在下期文章中我會對儲存格式進行一個比較詳細地說明。

短期規劃：介紹儲存格式 -> 序列比對雙序列比對 / 多序列比對 -> bowtie2, BWA -> samtools -> 用1組真實數據，手把手教你分析高通量測序結果 -> cufflink -> RNA seq 分析

如果各位有什麼特別想要提前知道的，或者想討論的技術，可以私信給我，我會儘早安排寫作。盡量保證1周1到2篇的更新速度。

-----------------------------------------------------------------

另外歡迎各位參加我們的知乎Live：

1. 知乎Live：如何快速入門生物信息學

（涉及內容：測序原理，生物信息學發展歷史，軟體的安裝與調試，入門路線圖，介紹了RNA-Seq的分析流程並給出實踐代碼）；

2. 知乎Live: 生信進階第1課-重複Nature文章

(涉及內容：肺癌相關研究現狀，RNA-Seq單細胞測序，RNA-Seq的建庫方法，RNA-Seq的分析流程細節，相關生信圖的繪製）；

3. 知乎Live：生信進階第2課-基因組序列

(涉及內容：介紹基因組的序列結構，hg19與hg38的區別，ENCODE計劃，常用的表觀組學實驗原理ChIP-Seq，Hi-C等，ChIP-Seq的標準處理流程，繪圖原理)

4. 知乎Live：不用編程怎麼做生物信息學

(涉及內容：介紹生物信息學入門的幾個層次，從命令行到圖形界面再到命令行，繪製生物進化樹，圖形界面分析平台，使用圖形界面處理RNA-Seq數據，使用圖形界面分析ChIP-Seq數據，UCSC genome browser，WashU genome browser)