生物信息學100個基礎問題 —— 第10題 讀懂FastQC報告之adapter與kmer
04-09
Hello大家好!
我們又見面了!今天是我們的FastQC中最後1次提問啦!今天,我們要聊得是adapter與kmer的問題。
我們在生物信息學100個基礎問題 —— 第5題 測序建庫的adapter 的時候討論過adapter的問題,我們知道adapter的最主要的作用是為了能夠與flowcell連接,方便進行橋式PCR。那麼我們的fastq文件中到底含不含adapter呢?FastQC報告就能告訴我們。
同時呢,我們今天還會討論kmer的問題,相關的報告FastQC也會輸出出來。
Part I adapter部分
Part II kmer部分
關於adapter的問題:
- Illumina的通用adapter序列是什麼?圖1-1與圖1-2中的各種不同顏色的圖例是什麼意思?
- 圖1-1與圖1-2中的橫坐標與縱坐標分別是什麼意思?
- 圖1-1與圖1-2中最顯著的差異是什麼?如果兩者都是RNA-Seq的數據,哪個可以繼續下游分析,哪個不能夠進行下游分析?為什麼?
關於kmer的問題:
- kmer就是一定長度的序列,比如AATTCCGG就可以叫做8-mer。那麼圖2-1餘圖2-2中的橫坐標什麼意思?縱坐標什麼意思?
- 圖2-1與圖2-2中哪個kmer問題比較嚴重?為什麼?
- 圖2-2中是在reads的5』端加入了約10bp左右的隨機序列,結合 生物信息學100個基礎問題 —— 第9題 讀懂FastQC報告中的duplicate問題 這樣做的目的是什麼?
思考題:
圖2-3是FastQC生成的kmer是否顯著的統計報告。其中的每一列是什麼意思?這個統計顯著性檢驗計算的p-value是使用什麼方法計算的?
參考資料:
FastQC文檔-Adapter Content
FastQC文檔-Kmer Content
Wiki二項分布-Binomial distribution
推薦閱讀:
※生信猿如何用好Mac高效工作
※數據挖掘專題 | TCGA數據挖掘如何入門?
※Analyzing RNA-seq data with DESeq2翻譯(3)
※數據分析終極解決方案!
※DeepVariant: 用卷積神經網路進行DNA序列變異位點檢測