生物信息學100個基礎問題 —— 第6題 讀懂FastQC報告 Part I

Hello 大家好!

通過前面的5個問題,我相信大家對Illumina測序,測序的儲存文件格式,一些簡單的建庫原理已經有了一個初步的認識。那麼接下來,我們就要用我們學到的知識去解決一些問題啦。

在實際操作和處理過程中,我們拿到的Illumina測序數據應該是.fastq.gz格式,其中gz表示的是使用gzip進行壓縮,fastq表示使用fastq格式進行存儲。獲得數據的第一步,通常就是使用FastQC軟體進行質控。

FastQC會對每一個輸入的fastq.gz文件生成1個html網頁和一個zip的壓縮包。壓縮包里是網頁中包含的圖片信息,因此我們只需要看網頁裡面整理好的內容就好。

今天的問題圍繞著FastQC的質控圖來展開,請看下面2張圖。

圖1 - 1個Illumina測序結果, reads1 的 per-base quality boxplot

圖2 - 1個Illumina測序結果, reads2 的 per-base quality boxplot

問題如下:

1. 圖中的橫坐標表示什麼意思?

2. 圖中的縱坐標表示什麼意思?

3. 圖中的藍色線是什麼意思?

4. 圖中的box 下面的bar , 上面的bar,箱體的下沿,箱體的上沿,箱體內部的橫線分別代表什麼意思?

5. 圖1與圖2最主要的區別在哪裡?結合我們之前的問題,為什麼會出現這種情況?

參考資料:

孟浩巍:20160410 測序分析——使用 FastQC 做質控?

zhuanlan.zhihu.com圖標


硬廣時間:本周6,我的知乎Live,歡迎大家參加!

3D基因組分析從入門到進階?

www.zhihu.com圖標
推薦閱讀:

生物信息學100個基礎問題 —— 第7題 讀懂FastQC報告 Part II
20160405 illumina 測序原理介紹
如何看待 Illumina 推出 NovaSeq 系列測序儀?
為什麼雙鏈文庫模板只有一條鏈可以結合到flow cell上?

TAG:生物信息學 | 測序 | Illumina |