測序之前篇: NGS測序中,接頭是如何添加上的,以及如何去接頭

我見過的相當一部分人,做質控時,一般也就就是跑個實驗室或者公司的祖傳代碼,但對於軟體所做的操作不求甚解,歸根結底,是因為對測序流程中,接頭是怎麼加上去的不太了解。

現在我們接觸的大多數二代測序數據,都是來自於illumina測序平台。這其中,大多數illumina文庫的構建,是通過將接頭連接到fragment DNA/cDNA的兩端(但是Nextera方法除外,因為技術相對不常見,這裡不深入展開)。 下圖是一張很經典的加接頭的示意圖,圖片下載於網頁 tucf-genomics.tufts.edu

正如圖所示,大概分為如下步驟。

  • 用酶或者激光或者超聲波將Genomic DNA或者由RNA反轉組得到的雙鏈cDNAs打斷成小片段
  • 打斷是隨機打斷,有可能末端不平整,還需要用酶補平
  • 補平之後,需要在3』端加A鹼基
  • 加上A之後,再加adapter

這時候,我們好像心裡有那麼點數,但是依然不知道adapter具體是怎麼加上去的,也並不知道接頭中,read1 sequncing primer, index, read2 sequencing primer,以及index sequencing primer到底在接頭的什麼地方。

那,是時候放出這張圖了。

看完這張圖,我們感覺對接頭的添加這個過程的理解,好像多了幾分。如果我們看上面這兩張圖,感覺就是在fragment DNA兩端直接加了一個Y字形的引物,它被稱人稱為Full Y-adapter或者forked adapters。

但我們如果看illumina的官方視頻,能夠看到如下幾幀介紹。

(上面的圖是我從視頻里截取下來,文字是根據我聽到的加上去的)

從圖片中我們能夠看到,在「接頭」添加之前,接頭上好像已經有另一個叉形接頭了,那這是咋回事呢? Y形接頭不是直接添加到DNA fragment上的嗎?

其實這是兩種不同的indexing strategy導致的差異, 而這兩種strategy的示意圖,如下圖所示。

左邊的是直接在fragment DNA的兩端直接加上full Y-adapter, adapter中已經包括了和P5/P7 oligo互補的序列, index, 以及Read1/Read2的測序引物。

右邊的那種是先在fragment DNA的兩端加上PE adapter, 然後再引入和P5/P7 oligo互補配對的序列以及index序列。

一句話總結,這兩種不同的indexing strategy的差別在於引入index序列的時機和方式不一樣。

其實右邊的圖並不是畫的特別形象,具體的的可以參看下面這張圖,圖片的來源是fimm.fi/en/services/tec

在這裡我們能夠清楚地看到,這種接頭添加過程中,fragment DNA兩端是先連上PE adapter, 然後再通過PCR引入的region complementary to P5/P7 sequence, index, and sequencing biding sites.

如果你的序列含有TruSeq Universal Adapter, 這時候可以採用如下去接頭的代碼。至於如何判斷你的序列里到底有沒有TruSeq Universal Adapter,可以下次單獨寫一篇來講解。

去接頭代碼:

cutadapt --times 1 -e 0.1 -O 3 -m 30 -q 25,25 -u 8 -a AGATCGGAAGAGC -A AGATCGGAAGAGC -o trimmed.1.fastq.gz -p trimmed.2.fastq.gz reads.1.fastq.gz reads.2.fastq.gz

我們今天的收穫是:

  • illumina文庫構建的一般方式
  • illumina接頭的兩種添加方式(兩種不同的indexing strategies)
  • 如何用cutadapt去除TruSeq Universal Adapter

只是一個很小的細節,我們就討論了這麼多,今天就討論到這裡,下次我們再接著結合illumina官網的序列,用實實在在的鹼基序列示意圖來講解,為什麼要這麼來去接頭。

附上illumina官網的測序原理介紹視頻如下:

https://www.zhihu.com/video/964658526447198208

參考鏈接:

  1. 圖一來源

2. illumina adapter 文件

3. 圖五來源


推薦閱讀:

數據分析終極解決方案!
生物信息神奇網站系列(十七):Bioconductor Workflows
生物信息學100個基礎問題 —— 第10題 讀懂FastQC報告之adapter與kmer
R語言入門5:數據變形-Tidyr

TAG:生物信息學 | Illumina | 二代測序 |