生物信息學100個基礎問題 —— 第9題 讀懂FastQC報告中的duplicate問題

Hello大家好!

我們又見面了!本周我們預計會把前10個問題提出來,結束我們的測序原理與FastQC部分。

今天我們來詳細聊聊duplicate問題。duplicate的產生主要是因為Illumina建庫的過程中,一般會需要使用PCR來幫助擴增插入序列的濃度。在擴增的過程中,如果PCR擴增輪數過大,就會出現duplicate的問題,即產生一模一樣的若干條序列。

FastQC中「Sequence Duplication Levels」圖是用來刻畫duplicate情況的。

圖1 duplicate結果圖

那麼我們今天的問題如下:

1. 圖1中的橫坐標是什麼意思,縱坐標是什麼意思?

2. 圖1中的紅線和藍線分別代表什麼意思?

3. 圖1中的duplicate是全部序列的duplicate的情況嗎?還是隨機篩選了一部分?為什麼要這樣做?

4. 如果讓你寫程序,判斷1個fastq文件中duplicate的比例,你的大概思路是什麼?

額外的思考題:

既然談到了duplicate的問題,那就存在remove duplicate的問題,什麼情況下應該去duplicate,什麼情況下不去除? 最好的去除辦法是什麼?(僅需要思考一下,以後我們會有專題討論這個問題)

參考資料:

高通量測序技術-孟浩巍-使用 FastQC 做質控

FastQC官方說明文檔-Duplicate Sequences

推薦閱讀:

生物信息學100個基礎問題——第6~ 10題 答案公布
生物信息學100個基礎問題——第11~15題 答案公布
初識GATK
生信猿如何用好Mac高效工作
【生信菜鳥經】漫談如何跨越擺在生信入門路上的三大障礙

TAG:生物信息學 | Illumina | 測序 |