測序之前篇: NGS測序中,接頭是如何添加上的,以及如何去接頭
我見過的相當一部分人,做質控時,一般也就就是跑個實驗室或者公司的祖傳代碼,但對於軟體所做的操作不求甚解,歸根結底,是因為對測序流程中,接頭是怎麼加上去的不太了解。
現在我們接觸的大多數二代測序數據,都是來自於illumina測序平台。這其中,大多數illumina文庫的構建,是通過將接頭連接到fragment DNA/cDNA的兩端(但是Nextera方法除外,因為技術相對不常見,這裡不深入展開)。 下圖是一張很經典的加接頭的示意圖,圖片下載於網頁 http://tucf-genomics.tufts.edu/home/faq
正如圖所示,大概分為如下步驟。
- 用酶或者激光或者超聲波將Genomic DNA或者由RNA反轉組得到的雙鏈cDNAs打斷成小片段
- 打斷是隨機打斷,有可能末端不平整,還需要用酶補平
- 補平之後,需要在3』端加A鹼基
- 加上A之後,再加adapter
這時候,我們好像心裡有那麼點數,但是依然不知道adapter具體是怎麼加上去的,也並不知道接頭中,read1 sequncing primer, index, read2 sequencing primer,以及index sequencing primer到底在接頭的什麼地方。
那,是時候放出這張圖了。
看完這張圖,我們感覺對接頭的添加這個過程的理解,好像多了幾分。如果我們看上面這兩張圖,感覺就是在fragment DNA兩端直接加了一個Y字形的引物,它被稱人稱為Full Y-adapter或者forked adapters。
但我們如果看illumina的官方視頻,能夠看到如下幾幀介紹。
(上面的圖是我從視頻里截取下來,文字是根據我聽到的加上去的)
從圖片中我們能夠看到,在「接頭」添加之前,接頭上好像已經有另一個叉形接頭了,那這是咋回事呢? Y形接頭不是直接添加到DNA fragment上的嗎?
其實這是兩種不同的indexing strategy導致的差異, 而這兩種strategy的示意圖,如下圖所示。
左邊的是直接在fragment DNA的兩端直接加上full Y-adapter, adapter中已經包括了和P5/P7 oligo互補的序列, index, 以及Read1/Read2的測序引物。
右邊的那種是先在fragment DNA的兩端加上PE adapter, 然後再引入和P5/P7 oligo互補配對的序列以及index序列。
一句話總結,這兩種不同的indexing strategy的差別在於引入index序列的時機和方式不一樣。
其實右邊的圖並不是畫的特別形象,具體的的可以參看下面這張圖,圖片的來源是https://www.fimm.fi/en/services/technology-centre/sequencing/next-generation-sequencing/dna-library-preparation
在這裡我們能夠清楚地看到,這種接頭添加過程中,fragment DNA兩端是先連上PE adapter, 然後再通過PCR引入的region complementary to P5/P7 sequence, index, and sequencing biding sites.
如果你的序列含有TruSeq Universal Adapter, 這時候可以採用如下去接頭的代碼。至於如何判斷你的序列里到底有沒有TruSeq Universal Adapter,可以下次單獨寫一篇來講解。
去接頭代碼:
cutadapt --times 1 -e 0.1 -O 3 -m 30 -q 25,25 -u 8 -a AGATCGGAAGAGC -A AGATCGGAAGAGC -o trimmed.1.fastq.gz -p trimmed.2.fastq.gz reads.1.fastq.gz reads.2.fastq.gz
我們今天的收穫是:
- illumina文庫構建的一般方式
- illumina接頭的兩種添加方式(兩種不同的indexing strategies)
- 如何用cutadapt去除TruSeq Universal Adapter
只是一個很小的細節,我們就討論了這麼多,今天就討論到這裡,下次我們再接著結合illumina官網的序列,用實實在在的鹼基序列示意圖來講解,為什麼要這麼來去接頭。
附上illumina官網的測序原理介紹視頻如下:
https://www.zhihu.com/video/964658526447198208參考鏈接:
- 圖一來源
2. illumina adapter 文件
3. 圖五來源
推薦閱讀:
※數據分析終極解決方案!
※生物信息神奇網站系列(十七):Bioconductor Workflows
※生物信息學100個基礎問題 —— 第10題 讀懂FastQC報告之adapter與kmer
※R語言入門5:數據變形-Tidyr