生物信息學100個基礎問題 —— 第9題讀懂FastQC報告中的duplicate問題

05-07

Hello大家好！

我們又見面了！本周我們預計會把前10個問題提出來，結束我們的測序原理與FastQC部分。

今天我們來詳細聊聊duplicate問題。duplicate的產生主要是因為Illumina建庫的過程中，一般會需要使用PCR來幫助擴增插入序列的濃度。在擴增的過程中，如果PCR擴增輪數過大，就會出現duplicate的問題，即產生一模一樣的若干條序列。

FastQC中「Sequence Duplication Levels」圖是用來刻畫duplicate情況的。

圖1 duplicate結果圖

那麼我們今天的問題如下：

1. 圖1中的橫坐標是什麼意思，縱坐標是什麼意思？

2. 圖1中的紅線和藍線分別代表什麼意思？

3. 圖1中的duplicate是全部序列的duplicate的情況嗎？還是隨機篩選了一部分？為什麼要這樣做？

4. 如果讓你寫程序，判斷1個fastq文件中duplicate的比例，你的大概思路是什麼？

額外的思考題：

既然談到了duplicate的問題，那就存在remove duplicate的問題，什麼情況下應該去duplicate，什麼情況下不去除？最好的去除辦法是什麼？（僅需要思考一下，以後我們會有專題討論這個問題）

參考資料：

高通量測序技術-孟浩巍-使用 FastQC 做質控

FastQC官方說明文檔-Duplicate Sequences

生物信息學100個基礎問題 —— 第9題 讀懂FastQC報告中的duplicate問題