生物信息學100個基礎問題 —— 第9題 讀懂FastQC報告中的duplicate問題
05-07
Hello大家好!
我們又見面了!本周我們預計會把前10個問題提出來,結束我們的測序原理與FastQC部分。
今天我們來詳細聊聊duplicate問題。duplicate的產生主要是因為Illumina建庫的過程中,一般會需要使用PCR來幫助擴增插入序列的濃度。在擴增的過程中,如果PCR擴增輪數過大,就會出現duplicate的問題,即產生一模一樣的若干條序列。
FastQC中「Sequence Duplication Levels」圖是用來刻畫duplicate情況的。
那麼我們今天的問題如下:
1. 圖1中的橫坐標是什麼意思,縱坐標是什麼意思?
2. 圖1中的紅線和藍線分別代表什麼意思?
3. 圖1中的duplicate是全部序列的duplicate的情況嗎?還是隨機篩選了一部分?為什麼要這樣做?
4. 如果讓你寫程序,判斷1個fastq文件中duplicate的比例,你的大概思路是什麼?
額外的思考題:
既然談到了duplicate的問題,那就存在remove duplicate的問題,什麼情況下應該去duplicate,什麼情況下不去除? 最好的去除辦法是什麼?(僅需要思考一下,以後我們會有專題討論這個問題)
參考資料:
高通量測序技術-孟浩巍-使用 FastQC 做質控
FastQC官方說明文檔-Duplicate Sequences
推薦閱讀:
※生物信息學100個基礎問題——第6~ 10題 答案公布
※生物信息學100個基礎問題——第11~15題 答案公布
※初識GATK
※生信猿如何用好Mac高效工作
※【生信菜鳥經】漫談如何跨越擺在生信入門路上的三大障礙