生物信息學100個基礎問題 —— 第10題 讀懂FastQC報告之adapter與kmer

Hello大家好!

我們又見面了!今天是我們的FastQC中最後1次提問啦!今天,我們要聊得是adapter與kmer的問題。

我們在生物信息學100個基礎問題 —— 第5題 測序建庫的adapter 的時候討論過adapter的問題,我們知道adapter的最主要的作用是為了能夠與flowcell連接,方便進行橋式PCR。那麼我們的fastq文件中到底含不含adapter呢?FastQC報告就能告訴我們。

同時呢,我們今天還會討論kmer的問題,相關的報告FastQC也會輸出出來。

Part I adapter部分

圖 1-1 1個正常的adapter報告

圖 1-2 1個RNA-Seq的adapter報告

Part II kmer部分

圖 2-1 正常的RNA-Seq建庫kmer統計

圖 2-2 加入random barcode的RNA-Seq建庫kmer統計

圖 2-3 kmer的統計顯著性分析

關於adapter的問題:

  1. Illumina的通用adapter序列是什麼?圖1-1與圖1-2中的各種不同顏色的圖例是什麼意思?
  2. 圖1-1與圖1-2中的橫坐標與縱坐標分別是什麼意思?
  3. 圖1-1與圖1-2中最顯著的差異是什麼?如果兩者都是RNA-Seq的數據,哪個可以繼續下游分析,哪個不能夠進行下游分析?為什麼?

關於kmer的問題:

  1. kmer就是一定長度的序列,比如AATTCCGG就可以叫做8-mer。那麼圖2-1餘圖2-2中的橫坐標什麼意思?縱坐標什麼意思?
  2. 圖2-1與圖2-2中哪個kmer問題比較嚴重?為什麼?
  3. 圖2-2中是在reads的5』端加入了約10bp左右的隨機序列,結合 生物信息學100個基礎問題 —— 第9題 讀懂FastQC報告中的duplicate問題 這樣做的目的是什麼?

思考題:

圖2-3是FastQC生成的kmer是否顯著的統計報告。其中的每一列是什麼意思?這個統計顯著性檢驗計算的p-value是使用什麼方法計算的?

參考資料:

FastQC文檔-Adapter Content

FastQC文檔-Kmer Content

Wiki二項分布-Binomial distribution


推薦閱讀:

生信猿如何用好Mac高效工作
數據挖掘專題 | TCGA數據挖掘如何入門?
Analyzing RNA-seq data with DESeq2翻譯(3)
數據分析終極解決方案!
DeepVariant: 用卷積神經網路進行DNA序列變異位點檢測

TAG:生物信息學 | 測序 | Illumina |