一個樣本，為什麼在做de novo文庫需構建不同插入片段的文庫（比如2k 5k 10k 40k）？

01-25

要回答這個問題，首先你得明白基於短讀長read測序數據的基因組組裝原理。

短read數據的組裝基於de Bruijn Graph（DBG）。簡單來說，組裝大致的原理就是將read，打散成為一定長度的短片段（這個長度一般是奇數，稱為k-mer），然後利用這些k-mer序列構造一個相互連接的有向大圖，這個圖就是DBG（下圖）。然後通過一系列演算法尋找出一條能夠最大程度連接起這些k-mer節點的歐拉路徑。

但是基因組其實充滿了很多的重複性序列，比如人類基因組中有著約50%的重複性序列，這麼多的重複性序列對於連續完整裝出一個基因組是很難的。這個時候就會被分成很多獨立的長序列段。

那麼如何才能把這些分開的獨立片段進一步連起來呢？就是通過這些逐級遞增的大片段文庫來完成的，就像架橋一樣，將一開始通過短片段文庫構造的contig（不含gap的長片段，來自第一級的DBG構圖結果），一級一級跨越過去，形成更長的scaffold。注意在跨越的時候，中間會有很多的gap產生，這是因為大片段文庫的主要功能是確定contig是否在一起的這個關係，中間的具體序列需要通過高質量的小片段文庫數據進行補洞。

1樓已經很詳盡了

瀉藥，原因一個字，窮。如果成本不限制全部上40k甚至更長。插入片段這麼長是因為可以克服重複區域無法組裝的問題。插入片段越長成本越高。所以目前測序技術傾向於讀長更加長，如果reads長度固定就提升插入片段長度，這樣就能跨過重複區域，讓比對更好定位，組裝的時候效果也能更好，不然這個地方是裝不出來的。