MeDIP-seq（甲基化DNA免疫共沉澱測序）

06-16

MeDIP-Seq（Methylated DNA Immunoprecipitation Sequencing）測序是基於抗體富集原理進行測序的全基因組甲基化檢測技術，採用甲基化DNA免疫共沉澱技術，通過5"-甲基胞嘧啶抗體特異性富集基因組上發生甲基化的DNA片段，然後通過高通量測序可以在全基因組水平上進行高精度的CpG密集的高甲基化區域研究。研究人員可以利用MeDIP-Seq技術快速有效地尋找基因組上的甲基化區域，從而比較不同細胞、組織或疾病樣本間的DNA甲基化修飾模式的差異。技術策略：

技術優勢：精確度高：基因組位點定位精確性可達± 50bp。可靠性高：直接對甲基化片段進行測序和定量，無交叉反應和背景噪音。檢測範圍廣：全基因組範圍內甲基化區域研究。高性價比：通過抗體富集高甲基化區域進行測序，有效降低測序費用。技術路線：

MeDIP-seq生物信息學分析

將測序結果與參考基因組比對，比對上唯一位置的序列用於後續標準信息分析及個性化分析。信息分析流程如下：

生物信息分析流程圖，首先要對測序數據進行去接頭去低值處理，然後進行比對分析，採用唯一比對的reads進行下一步分析。之後對唯一比對reads在基因組，基因元件的分布進行分析。檢測到唯一比對的reads的富集區（Peak），並對Peak進行分析。最後進行差異Peak的分析。 1. Data clean 測序完成後，去污染，去接頭及去除低質量數據。

數據產出統計信息

樣品名稱	read長度(bp)	reads數量	原始數據(Gb)
a	49	24,489,796	1.2
b	49	24,489,796	1.2
c	49	24,489,796	1.2

2. MeDIP-Seq序列與參考序列的比對將MeDIP-Seq序列與參考基因組進行比對，每條read最多容許2個鹼基的錯配，生成最終比對結果文件 *.sop。

比對信息統計

樣品名稱	原始reads數量	比對reads數	比對率(%)	有效鏈深度	唯一比對reads數	唯一比對率(%)
a	24,489,796	21,449,285	87.58	2.82	12,199,426	49.81
b	24,489,796	21,759,594	88.85	2.86	12,328,166	50.34
c	24,489,796	21,979,358	89.75	2.89	12,193,301	49.79

比對率=比對reads數/原始reads數量

有效鏈深度=比對bases數/基因組參考序列大小唯一比對率=唯一比對reads數/原始reads數量 3. MeDIP-Seq數據的全基因組分布趨勢 3.1 MeDIP-seq 測序 reads 在全基因組上的覆蓋深度計算全基因組上每一個鹼基的覆蓋深度，得到不同覆蓋深度下的鹼基百分比，即不同覆蓋深度下的鹼基對應基因組的覆蓋度。覆蓋深度：特定位點被測序 reads 所覆蓋的次數。例如某一個位點上的覆蓋深度為 10X，則表明這個位點被測序 reads 覆蓋了 10 次。而對於特定的 DNA 區域，或者全基因組範圍，則可以計算平均覆蓋深度。基因組覆蓋度：符合特定條件的鹼基數所能覆蓋的全基因組鹼基數的比例。下圖中橫軸表示測序深度，縱軸表示不低於這一特定測序深度的基因組覆蓋度。

3.2 MeDIP-seq 測序 reads 在 CpG 位點上的覆蓋深度 MeDIP-seq 測序reads在CpG位點上的覆蓋深度計算全基因組上每一個CpG（Watson鏈，Crick鏈，雙鏈）的覆蓋深度，得到不同覆蓋深度下CpG位點的覆蓋度，即一定覆蓋深度以上的CpG位點在MeDIP-seq所測得的全部CpG位點中所佔比例。

3.3 MeDIP-Seq測序reads在不同基因功能元件上的分布對測序reads在9種基因組功能元件上的分布進行比較分析，有助於了解不同功能元件的甲基化修飾特徵。這9種功能元件包括CpG Islands, Repetitive Elements, gene upstream2k, first exon, first intron, internal exons, internal introns, last exon , downstream2k。另外，在此基礎上對Repetitive Elements區域進一步細分，統計reads在不同類型Repeat區域的分布情況。橫軸表示不同基因區域，縱軸表示分布在特定基因區域的reads占可比對reads總數的比例。

reads在不同基因功能元件上的分布

reads 在重複區域的分布情況

3.4 MeDIP-seq 測序 reads 在不同 GC 含量區域中的分布以200bp大小的窗口對基因組進行掃描，計算MeDIP-Seq序列在不同GC含量的窗口的分布情況，可以反映出測序數據在不同GC含量區域的富集性分布特徵。下圖中橫軸代表不同GC含量區域，縱軸代表特定GC含量區域的reads總數占所有可比對reads總數的比例。

4. 統計 MeDIP-seq 數據富集區域 ( Peak ) 的信息對 MeDIP-seq 序列進行 Peak 掃描，並進行相關統計分析。 4.1 Peak 掃描全基因組範圍掃描尋找Peak區域，得到Peak在基因組上的位置信息。

表3-3 Peak信息統計

樣品名稱	Peak 數量	Peak平均長度	Peak長度中位數	Peak總長度	Peak覆蓋度
a	41,554	1,237.80	1,108	51,435,436	13.81%
b	43,020	1,200.41	1,065	51,641,544	13.87%
c	43,358	1,251.26	1,109	54,252,026	14.57%

4.2 尋找 Peak 相關基因根據Peak掃描的結果，尋找Peak相關基因。 4.3 統計Peak在不同基因功能元件上的分布分別統計Peak在upstream2k，first exon，first intron，internal exons，internal introns，last exon，downstream2k等7個基因功能元件上的個數分布和覆蓋度分布。下圖中橫軸表示各個功能元件區域，縱軸表示特定功能元件所包含的peak個數。

下圖中橫軸表示各個功能元件區域，縱軸表示特定功能元件區域所包含的peak在該區域的覆蓋度（即覆蓋鹼基數與該區域鹼基總數的比值）。

將每個基因元件按長度平均分成10份，以曲線圖的形式反映每一個功能元件區域的 peak覆蓋度變化趨勢。

5. 基於 Peak 的多樣品間差異性分析 5.1分析兩個樣品間的 peak 相關差異基因基於兩個樣本的MeDIP測序數據，針對各基因功能元件區域的Peak覆蓋度做差異分析，找到具有差異的基因。篩選條件為：p值≤0.05，兩個樣本在相同基因元件內都有覆蓋，且覆蓋度的差異在 4 倍以上。下述表格中的數值表示差異基因個數。

# of genes	A vs B
upstream2k	833
first exon	65
First intron	559
Internal exons	517
Internal introns	78
Last exon	220
downstream2k	731

5.2 對兩個樣品間的差異基因進行GO功能富集分析及pathway功能分析 Peak相關差異基因所具有的功能聚類，代表兩個樣品在特定生物學功能上具有與DNA 甲基化修飾相關的差異性。下圖為差異基因的GO功能分析結果。橫軸代表GO功能分類項，左縱軸代表與GO相關的基因的比例，右縱軸代表與GO相關基因的數量，每一個特定功能分類項中均列出兩個樣品在此功能分類下的分布情況。圖中所標down與up，是將sample1與sample2進行比較後所得到的內容，sample2覆蓋度高於sample1的基因即為up-methylated，反之則為down-methylated。

6. 個性化信息分析根據客戶具體項目需求進行個性化分析。案例分析： MeDIP-Seq發現種子發育過程中重複元件廣泛的去甲基化是基因印記的基礎在植物中，基因印記現象往往發生在胚乳中。研究人員以兩個擬南芥品種Col- gl和Ler各自的胚和胚乳為材料，利用medIP測序的手段對全基因組的甲基化譜進行研究。發現伴隨著胚乳的發育以及胚乳特異的一些基因的表達發生了大規模甲基化的變化。胚乳中重複元件發生了廣泛的去甲基化。並且，通過將胚乳中甲基化程度降低的區域與胚乳表達偏好性(preferential expression in endosperm)關聯起來作為候選印記基因的方式，尋找到了新的印記基因。所有的結果說明植物中印記的發生來源於在基因調控元件附近插入重複元件的甲基化以及之後的正向選擇的原因。

胚與胚乳中甲基化狀況原文：Extensive Demethylation of Repetitive Elements During Seed Development Underlies Gene Imprinting, Science, 2009