生物信息學100個基礎問題——第1~ 5題 答案公布

Hello大家好!我們的生物信息學100問正在如火如荼的開展。其中第1~5問的答案公布如下,供大家參考!

我們初步的想法是,免費分享給大家,但是懇請大家花10s的時間,多多轉載,幫我們擴大一下影響力,我們的活動才能越辦越好! 謝謝大家了!

原題目鏈接:

生物信息學100個基礎問題 —— 第1題 FASTQ與FASTA

生物信息學100個基礎問題 —— 第2題 測序技術初探

生物信息學100個基礎問題 —— 第3題 Illumina測序技術細節探究

生物信息學100個基礎問題 —— 第4題 Illumina測序技術細節探究 II

生物信息學100個基礎問題 —— 第5題 測序建庫的adapter


下面是答案部分!

100 Bioinformatic Basic Questions_1

1. 掌握FASTQ格式

1.1 格式有什麼特點?

fastq內容格式有4行:

- 第1行主要儲存序列測序時的坐標等信息;

舉個例子:@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133 1. @,開始的標記符號;2. ST-E00126:128:HJFLHCCXX,測序儀唯一的設備名稱; 3. 2,lane的編號; 4. 1101,tail的坐標;5. 7405,在tail中的X坐標;6. 1133,在tail中的Y坐標

- 第2行就是測序得到的序列信息,一般用ATCGN來表示,其中N用於熒光信號干擾無法判斷到底是哪個鹼基時的代表符號;

- 第3行以「+」開始,可以儲存一些附加信息,但目前的測序fastq文件這一行一般是空的。

- 第4行儲存的是質量信息,與第2行的鹼基序列是一一對應的,其中的每一個符號對應的ASCII值是經過換算的phred值,可以簡單理解為對應位置鹼基的測序質量值,越大說明測序的質量越好。不同的版本對應的phred值範圍不同。

1.2 什麼是phred值,怎麼計算?

是評估這個bp測序質量的值,測序儀通過判斷熒光信號的顏色來判斷鹼基的種類,ATCG分別對應紅黃藍綠,信號強弱不同,在這種情況下對每個結果的判斷的正確性都存在一個概率值,這個值被儲存為ASCII碼形式,轉化方式如下:

  • 將該鹼基判斷錯誤概率值P取log10之後再乘以-10,得到的結果為Q。

比如,P=1%,那麼對應的Q=-10*log10(0.01)=20(這個計算公式illumina平台使用,Solexa系列測序儀使用不同的公示來計算質量值:Q=-10log(P/1-P))

  • 把這個Q加上33或者64轉成一個新的數值,稱為Phred,最後把Phred對應的ASCII字元對應到這個鹼基。

如Q=20,Phred = 20 + 33 = 53,53在ASCII碼錶里對應的ASCII符號是」5」

1.3 phred33 與 phred64是什麼意思?

質量字元的ASCII值和質量得分的關係有如下兩種:可以粗略分為 Phred+33和Phred+64,這裡的33和64就是指ASCII值轉換為Q該減去的數值。

在處理測序數據時,因為一些軟體會根據鹼基質量得分的不同做不同的處理,常要指定正確的編碼方式,有必要對質量字元與質量得分的關係(Phred+33或Phred+64)作出正確的判斷。當然,如果處理的是最近兩年產生的測序數據,基本上都是Phred+33的,但從NCBI SRA資料庫下載的較早的數據可能不同,需要注意。

2. FASTA格式的構成是怎樣的,有什麼樣的規律?

  • fasta格式用於儲存序列,可以儲存DNA、RNA和蛋白質序列,一般分為兩個部分,第1行是以>開頭的序列描述信息,包括資料庫中的編號,序列名稱,序列類型,剩餘的為序列信息,以蛋白質和mRNA序列文件為例:

蛋白質fasta文件

  • 以>開頭
  • sp|P69905 資料庫編碼
  • HBA_HUMAN Hemoglobin subunit alpha 蛋白質名稱
  • OS=Homo sapiens 所屬物種
  • GN=HBA1 基因名稱

sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1 MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKLASVSTVLTSKYR`

核酸序列文件(mRNA序列中的U均用T來代替)

  • 以>開頭
  • gi|13650073 基因ID
  • gb|AF349571.1 genebank編號
  • Homo sapiens hemoglobin alpha-1 globin chain (HBA1) 基因名稱
  • mRNA, complete cds 序列類型

gi|13650073|gb|AF349571.1| Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTTG

3. 什麼序列適合用FASTA保存,什麼序列適合用FASTQ保存?

單純的蛋白或者核酸的序列信息一般用FASTA格式保存,而測序文件一般用包含儀器信息和測序質量的FASTQ格式保存。

100 Bioinformatic Basic Questions_2

現在我們實驗室或者公司常用第1代測序與第2代測序,那麼:

1. 第1代測序 sanger 測序法的原理是什麼?通量比較低的核心原因是什麼?

sanger法測序及雙脫氧鏈終止法,它採取DNA複製原理,通過在DNA複製過程中添加雙脫氧三磷酸核苷酸(ddNTP)終止DNA鏈的延伸,在DNA鏈不同位置的延伸終止判斷該位置的鹼基類型。但是凝膠電泳的時間較長,導致sanger法測序通量低。

2. 作為2006年正式發布的illumina測序技術,或者稱為第2代測序技術的代表性技術,其最大的特點是什麼?

高通量,成本低,但測序長度較短。

3. Illumina測序技術的核心是什麼?

核心內容有兩個,一個是橋式PCR,主要用於擴大信號;另一個是4色熒光可逆終止反應,使illumina測序可以實現邊合成邊測序的技術。

4. Illumina測序技術為什麼不能像第1代測序技術一樣測500bp以上?

主要的原因有兩個,一方面測序時,經過長時間的PCR,會有不同步的情況。比如一開始1個cluster中是100個完全一樣的DNA鏈,但是經過1輪增加鹼基,其中99個都加入了1個鹼基,顯示了紅色,另外1個沒有加入鹼基,不顯示顏色。這時候整體為紅色,我們可以順利得到結果。隨後,在第2輪再加入鹼基進行合成的時候,之前沒有加入的加入了1個鹼基顯示紅色,剩下的99個顯示綠色,這個時候就會出現雜信號。當測序長度不斷延長,這個雜信號會越來越多,最後很有可能出現50個紅,50個綠色,這時信號不足以判斷鹼基類型;第二就是測序過程中合成酶的活性越來越不穩定,後面鹼基添加出現問題。

100 Bioinformatic Basic Questions_3

目前我們最常使用的就是Illumina公司的測序技術,Illumina公司的測序技術最明顯的幾個特點是:價格低,通量高,測序讀長短。那麼我們今天的問題,就是圍繞Illumina測序技術的細節來提問的。

1. 什麼是Illumina測序adapter?同一批上機的adapter序列一樣嗎?它的作用是什麼?

adapter的中文意思為適配器或者介面,在illumina測序過程中關鍵一步是將文庫片段固定在flowcell上,然後通過橋式PCR將片段擴增,在被打斷成300~500bp的長度的片段末端被補平後adaptor將被添加到片段兩端,一方面用於將片段固定在flowcell上,同時adaptor中還包含橋式PCR所需要的引物

2. 一個完整的Illumina測序過程是那幾步?

完整的測序過程僅包含兩步,第一是橋式PCR擴增,第二是以4色熒光可逆終止反應為核心技術的測序;

3. 什麼是橋式PCR技術?為什麼要進行橋式PCR?

加上adaptor之後的DNA樣品與flowcell上固定的oligo(寡鏈核苷酸)匹配後就被固定在flowcell上,通過橋式PCR進行擴增成cluster,便於後面的熒光測序,主要步驟為:

  • 進行第一輪擴增,將序列補成雙鏈。加入NaOH強鹼性溶液破壞DNA的雙鏈,並洗脫。由於最開始的序列是使用化學鍵連接的,所以不會被洗。
  • 加入緩衝溶液,這時候序列自由端的部分就會和旁邊的oligo進行匹配

    進行一輪PCR,在PCR的過程中,序列是彎成橋狀,所以叫橋式PCR,一輪橋式PCR可以使得序列擴增1倍

    如此循環下去,就會得到一個具有完全相同序列的cluster

引用自:http://www.intechopen.com/source/html/49419/media/image2.png

4. 我們都說,測序結果會包含index,那麼index是什麼?有什麼作用?

一條lane能測得的數據量在30G左右,而一個樣品的測序量一般不會這麼大,所以在建庫的時候對每一種樣品的接頭加上不同的標籤序列,這個標籤就叫做Index,有了index就可以同時在一個lane中測多種數據了,後期可以根據index將數據分開;

5. 我們所說的flowcell,lane,tile都是什麼意思?

  • flowcell 是指Illumina測序時,測序反應發生的位置,1個flowcell含有8條lane
  • lane 每一個flowcell上都有8條泳道,用於測序反應,可以添加試劑,洗脫等等
  • tile 每一次測序熒光掃描的最小單位

引用自:http://41j.com/blog/2012/04/nextgen-sequencing-primer/

6. Illumina測序結果質量表示方法採用的是Phred33還是Phred64?

最新的測序質量結果一般都為Phred33,但是早期的測序數據可能出現Phred64。

100 Bioinformatic Basic Questions_4

1. Illumina目前主流的測序儀都有哪幾種型號?各自大概的通量是多少?(也就是1個run能跑出多少數據)

目前主流的測序儀及其通量主要是Hiseq2500(50-1000Gb)、Hiseq3000(125-750Gb)、Hiseq4000(125-1500Gb)、Hiseq X Five(900-1800Gb)和Hiseq X Ten(900-1800Gb),

2. Illumina目前的測序技術,最核心的就是邊合成邊測序,即我們常說的 Sequencing by synthesis (SBS),那麼為什麼能夠實現SBS?

經過橋式PCR之後同一段序列已經成簇,下一段就是開始進行測序,這一步比較簡單,就是加入primer,然後添加經過特殊處理的ATCG四種鹼基,特殊的地方有兩點:一個是鹼基部分加入了熒光基團,可以激發出不同的顏色,另一個是脫氧核糖3號位加入了疊氮基團而不是常規的羥基,這個疊氮集團保證了每次只能夠在序列上添加1個鹼基.

這樣每1輪測序,保證只有1個鹼基加入的當前測序鏈。這時候測序儀會發出激發光,並掃描熒光。因為一個cluster中所有的序列是一樣的,所以理論上,這時候cluster中發出的熒光應該顏色一致。隨後加入試劑,將脫氧核糖3號位的—N2改變成—OH,然後切掉部分熒光基團,使其在下一輪反應中,不再發出熒光。如此往複,就可以測出序列的內容。

3. 我們在第1問中,問了大家一個問題「Illumina測序技術為什麼不能像第1代測序技術一樣測500bp以上?」,這裡面主要涉及到兩種錯誤,一種叫phasing,一種叫pre-phasing,分別是什麼意思?

通俗來講phasing表示本來同步添加的鹼基有一些沒加上,而pre-phasing則是加多了,都會導致當前bp的熒光檢測出現噪音,造成phasing的主要原因是合成酶的活性降低,而pre-phasing則可能是疊氮基團性質不穩定,轉化為羥基在一步檢測中添加了不止一個鹼基。

100 Bioinformatic Basic Questions_5

Hello大家好!

上周我們已經把Illumina測序的基礎內容基本搞清了,那麼本周的問題我們主要是為圍繞著測序後續的質控與建庫細節來進行。

今天我們提出的問題是Illumina目前常用的雙端測序建庫辦法中,會在打斷的序列前後加上adapter,請問:

1. adapter是什麼意思?adapter與primer有什麼區別?

adapter在中文是適配器或者介面的意思,在前面的內容中已經提到將測序序列打碎成片斷後要將末端補平然後添加adapter,用於與flowcell上的oligo匹配固定並為後續橋式PCR做準備,而前面提到的Index與adapter之間的位置關係一般為adapter1-Index-fragment-adapter2,adapter2通過與oligo互補連接在flowcell上,在進行完橋式PCR之後進行測序時,添加primer,這一段primer的序列是與Index互補的而非adapter1,所以最終拿到的測序結果應該是Index+fragment+adapter2或者Index+部分fragment

2.比如最終的測序結果是 AATTCCGGATCGATCG...,那麼adapter的序列可能出現在哪一端,還是兩端都有可能出現?為什麼?

一般出現在3端,在上面第1題中已經說到,最終的測序結果應該是Index+fragment+adapter2或者Index+部分fragment,也就是說測序的方向是從5到3,adapter只可能出現在3端。


請大家觀看完以後點贊!轉發!謝謝!

另外,更多的講解內容,請加入QQ群643403508,購買孟浩巍的任意一次與生物信息學相關的知乎Live都可以加群!

孟浩巍的知乎Live?

www.zhihu.com圖標
推薦閱讀:

【討論】WGCNA 分析中需要設定多少個模塊比較合理
生物信息學100個基礎問題 —— 第16題 高通量測序的回貼問題 I
生物信息學100個基礎問題 —— 第11題 使用cutadapt去除adapter

TAG:生物信息學 | Illumina | 測序 |