生物信息學100個基礎問題 —— 第8題 讀懂FastQC報告 Part III
Hello 大家好! 我們又見面了!
最近總搞FastQC報告的研讀,是不是都看煩了?沒關係,我們再搞最後2次,就進入下一個主題啦!昨天的問題中,我們告訴大家FastQC的報告中最重要的幾張圖都在下面用紅框框出來了。今天我們來研讀2張圖。
第1張圖是:Per sequence GC content
第2張圖是:Sequence Length Distribution
相關的問題與思考:
1. 圖1-1 與 圖1-2 中的橫坐標是什麼意思? 縱坐標是什麼意思?
2. 圖1-1中是human全基因組測序,結合昨天的問題,那麼peak的中間大約應該在多少?
3. 圖1-2與圖1-1有哪些顯著的不同?造成這些不同的原因有可能是什麼?遇到這個問題,我們通常應該做些什麼?
4. 圖2-1的橫坐標是什麼意思?縱坐標是什麼意思?
5. 圖2-1是剛下機的fastq數據進行FastQC 結果圖,有什麼特點?為什麼會出現這樣的結果?如果對剛下機的fastq數據進行cutadapter,圖2-1還會是這樣的結果嗎?為什麼?
能力擴展題:
請想辦法,計算Human genome 19(hg19)每一條染色體的GC含量。
參考資料:
1. 高通量測序技術-孟浩巍-使用 FastQC 做質控
2. 高通量測序技術-孟浩巍-illumina 測序原理介紹
3. What Is The Gc-Content Across Different Human Chromosomes?
4. 知乎Live-學習Python,做生信 ( 能力擴展題,在我的知乎Live中我和大家一起已經用python實現了,各位大老爺有錢的可以捧個錢場~ )
硬廣時間:
如果你想做3D基因組方向,而且還沒有入門,本次的Live你一定不要錯過。參加1次至少幫你省了3個月讀文獻的時間。
時間:本周六晚8點!
3D基因組分析從入門到進階推薦閱讀:
※生物信息學100個基礎問題 —— 第11題 使用cutadapt去除adapter
※生物信息學100個基礎問題——第1~ 5題 答案公布
※【討論】WGCNA 分析中需要設定多少個模塊比較合理
※生物信息學100個基礎問題 —— 第16題 高通量測序的回貼問題 I