一個樣本,為什麼在做de novo文庫需構建不同插入片段的文庫(比如2k 5k 10k 40k)?
要回答這個問題,首先你得明白基於短讀長read測序數據的基因組組裝原理。
短read數據的組裝基於de Bruijn Graph(DBG)。簡單來說,組裝大致的原理就是將read,打散成為一定長度的短片段(這個長度一般是奇數,稱為k-mer),然後利用這些k-mer序列構造一個相互連接的有向大圖,這個圖就是DBG(下圖)。然後通過一系列演算法尋找出一條能夠最大程度連接起這些k-mer節點的歐拉路徑。
但是基因組其實充滿了很多的重複性序列,比如人類基因組中有著約50%的重複性序列,這麼多的重複性序列對於連續完整裝出一個基因組是很難的。這個時候就會被分成很多獨立的長序列段。
那麼如何才能把這些分開的獨立片段進一步連起來呢?就是通過這些逐級遞增的大片段文庫來完成的,就像架橋一樣,將一開始通過短片段文庫構造的contig(不含gap的長片段,來自第一級的DBG構圖結果),一級一級跨越過去,形成更長的scaffold。注意在跨越的時候,中間會有很多的gap產生,這是因為大片段文庫的主要功能是確定contig是否在一起的這個關係,中間的具體序列需要通過高質量的小片段文庫數據進行補洞。
1樓已經很詳盡了
瀉藥,原因一個字,窮。如果成本不限制全部上40k甚至更長。插入片段這麼長是因為可以克服重複區域無法組裝的問題。插入片段越長成本越高。所以目前測序技術傾向於讀長更加長,如果reads長度固定就提升插入片段長度,這樣就能跨過重複區域,讓比對更好定位,組裝的時候效果也能更好,不然這個地方是裝不出來的。
推薦閱讀:
※什麼是 Hi-C 技術?為什麼 Hi-C 技術這麼火?
※如何面對DNA測序平民化所帶來的社會倫理問題?
※高通量測序還能火幾年?
※HLA分型基因測序的結果B27陽性,有6%的幾率會患上強直性脊柱炎,該如何預防?
TAG:DNA測序 |