【討論】WGCNA 分析中需要設定多少個模塊比較合理

有學員問:WGCNA分析中需要設定多少模塊比較合理?

是以我們的研究目的和運行結果來評價的嗎?

多次運行再調整,選擇比較符合自己預期的一種方案來執行?

首先需要明確的是,WGCNA 中模塊的數目不是直接設定的,但是可以根據參數間接來調整。

  • 比如 deepSplit 參數調整劃分模塊的敏感度,值越大,越敏感,得到的模塊就越多;
  • 比如 minModuleSize 參數設置最小模塊的基因數,值越小,小的模塊就會被保留下來;
  • 比如 mergeCutHeight 設置合併相似性模塊的距離,值越小,就越不容易被合併,保留下來的模塊就越多。

這些參數到底怎麼選,我覺得跟你所要研究的性狀相關。

如果研究的是果皮顏色,而與果皮顏色相關的基因只是整個花青素合成、運輸、存儲的通路,預期不超過 50 條基因,所以 deepSplit 就要設置的大一些(3 或 4),minModuleSize 就要設置的小一些(不高於 30)。

而如果你研究的是果實重量,可以想像,這是一個關乎整體的性狀,至少有上千條基因與此相關。這時候 deepSplit 就要小一些(1或2),哪些小的模塊我們不關心,minModuleSize 可以設置得大一些(如 300)。

其實,不只是共表達分析。你可以想像,主成分分析是不是也是這個道理呢?在使用表達數據進行 PCA 的時候。

PC1 也許體現的是組織差異;PC2 也許就能體現處果實大小的差異;而果實顏色由於只與不到 50 條基因有關,所以一定是不太重要的成分(PC7?PC8?),只看前幾個是發現不了的。


推薦閱讀:

生物信息學100個基礎問題 —— 第11題 使用cutadapt去除adapter

TAG:生物信息學 | 生物專業 | 測序 |