在抑鬱症基因的探索上，弗林特設計的研究方法有什麼獨到之處？為什麼只有 CONVERGE 團隊成功了？

01-16

由華大基因、牛津大學、弗吉尼亞聯邦大學和中國五十多家醫院組成的國際聯盟(CONVERGE) 通過分析幾千名重度抑鬱病例的基因序列，發現了兩個與重度抑鬱相關的基因位點。
在 CONVERGE 之前，有研究收集了9000名重度抑鬱症患者的樣本然而一無所獲；另一個研究團隊 Psychiatric Genomics Consortium 將研究的樣本量擴大到了1.7萬個研究對象，最終也沒有任何收穫。
抑鬱症的基因學研究的難點通常有哪些，弗林特的設計有什麼獨到的地方？為什麼只有這個團隊成功了？

首先慶賀同行們的突破，我自己也在做類似的東西（精神分裂症的基因學研究，也在申STAR*D），不請自來。

下面來正式回答問題

-------------------------------------------------------------------------------------------------------

遺傳類精神疾病的基因研究，是一個很複雜的過程。

一個最簡化的模型是：

採集同一類病人血樣--&> 基因測序 --&> 全基因組關聯性分析 GWAS---&>發現等位點

但是這個過程里存在好多問題，難點。

第一，也是最主要的問題，很多研究的樣本不好。比如：

精神類的疾病往往「錯綜複雜」，一些疾病，看起來都差不多，實際上卻是兩種病。一些醫生會錯誤的把A病的病人，放在B病的樣本里。
導致一些精神疾病出現的等位點很多，義大利人得抑鬱症可能因為1號染色體上某點，中國人得抑鬱症可能因為1號染色體上另外一點。這兩點表達的產物都與細胞通路有關，能產生病情。採樣的時候，需要控制病人的遺傳背景，家族背景。
不同性別之間，不同患者的疾病表現可能不盡相同。

在這種情況下，傳統統計學意義上更好的大樣本，反而不見得是好事。（2w 容量的mega analysis很可能什麼都研究不出來，因為樣本太混雜，控制FWER之後的p-value臨界值又太小，沒有足夠power）

對於這個最主要的問題，CONVERGE 團隊選取了，祖父母均為漢人的女性。對於發病時間，發病癥狀，進行了比較嚴謹的界定。選出了一個比較「純」的樣本，為後續的研究提供了有利的條件。

（我在加拿大一家精神醫院做精神分裂的基因分析，真的很羨慕國內能有這麼大的樣本量..我們整個省的嚴重抑鬱症病人的數量，可能都沒有這個樣本量大。這個樣本是研究能成功的關鍵因素）

其次，就是魯明前輩提到的，基因測序成本的問題

illumina 這家測序公司，用新一代測序，把測序的成本縮減到了1000美元/人. （實際會比這個高一些，因為做不到全年無休一直sequencing）. 對比十年之前幾十萬美元/人的價格，降低了太多。使得採集相對比較大的基因樣本數成為了可能。

綜上，CONVERGE團隊成功的兩大原因是：

1. 找到了一個相對」純「（homogenous）的病人樣本

2. 依託先進的技術，高速而又相對廉價的，完成了對這些病人基因的測序。

最後，依靠合適的統計學方法，找出了與重度抑鬱症相關的兩個遺傳變異。

所以，這個故事告訴我們，做研究，一定要學好統計呦。好研究，從尋找好樣本開始

Reference:

CONVERGE consortium Sparse whole-genome sequencing identifies two loci for major depressive disorder. Nature. 2015;523:588–591. doi: 10.1038/nature14659. [PMC free article] [PubMed] [Cross Ref]

首先說明，我現在已經畢業了，在某高通量測序公司做GWAS產品經理。這個問題我還是比較有發言權的。

抑鬱症的複雜性我就不介紹了，原文里也提到過。

目前的最高票答案，Jack Wang說，CONVERGE團隊之所以成功，是因為：

CONVERGE團隊選取了，祖父母均為漢人的女性。對於發病時間，發病癥狀，進行了比較嚴謹的界定。選出了一個比較「純」的樣本。

並沒有說到點子上。

1) 如果Jack所說的比較純的樣本是指人種結構上皆為漢族，那他的理解是錯誤的；

多年以來所有GWAS研究最基本的選樣標準就是人群分層（population stratification），也就是人種的結構需要一致，否則怎麼知道找到的位點是 種族特異性的 還是 與疾病相關聯的；

研究者又不傻，之前做抑鬱症的人並沒有忘記GWAS選樣「需要人種結構一致」這個最基本的準則。

2) 那麼，CONVERGE團隊的成功之處在哪裡呢？其實是因為他們採用了 Extreme-trait design（極端性狀設計）的原則。如果Jack的比較「純」的樣本是指這個的話，他並沒有表達清楚。

簡單地說，他們的研究只選取病情非常嚴重的患者與未患病的對照組進行對比，嚴重到什麼程度呢？平均複發5.6次。

作者在摘要中也說：

We attribute our success to the recruitment of relatively homogeneous cases with severe illness.

是因為Severe illness，而不是 single ethnic.

所以這項研究成功的原因主要有：

a) 選樣採用 Extreme-trait design 的策略，患病組只選取病情程度非常嚴重的患者；

b) 採用低深度全基因組重測序進行更大量的SNP位點的獲取：

以往基於SNP晶元的GWAS研究涉及的SNP位點數量大概在30萬~60萬左右，但如果基於全基因組重測序，GWAS所分析的SNP位點數量會大幅度提高，以本文為例，用於GWAS分析的SNP位點是6,242,619個。出處如下：

A total of 21,356,798 (9,053,391 known in 1000 Genomes Phase 1 ASN Panel and 11,486,024 novel) biallelic SNPs identified from all chromosomes and unassembled contigs. We then applied a conservative set of inclusion thresholds for SNPs for GWAS: (a) P value for violation of the Hardy–Weinberg equilibrium &> 10^-6; (b) information score &> 0.9; (c) MAF in CONVERGE &> 0.5%, to arrive at the final set of 6,242,619 SNPs for GWAS.

蛤蛤

最後，對於不關心GWAS只關心這個突變位點會不會影響自己的大家的一個彩蛋：

duang~ 這兩個位點是這樣的：

SNP = rs12415800, chromosome 10:69624180, MAF = 45.2%, P = 1.92*10^-8；

SNP = rs35936514, chromosome 10:126244970, MAF = 26.0%, P = 1.27*10^-8.

簡單地說，這兩個位點的變異在漢族人群的出現頻率分別是 45.2%和26.0%，也就是說，你有我有大家有。覺得「有這兩個變異我就要得抑鬱症」的人可以洗洗睡了。

更通俗地說，是這樣的：

日報的題目是：「終於有人發現，它們很可能決定了你會不會得抑鬱症」。

這就像，研究發現男生比女生更容易得自閉症，然後日報小編說：「終於有人發現，是男是女，決定了你會不會得自閉症」 哈哈哈哈太扯淡了有沒有。

下附參考文獻：

1. 研究原文： Sparse whole-genome sequencing identifies two loci for major depressive disorder : Abstract : Nature

2. 關於Extreme-trait design： Uncovering the roles of rare variants in common disease through whole-genome sequencing : Abstract : Nature Reviews Genetics

利益相關：諾禾致源疾病基因組事業部產品經理。

兩個關鍵詞：

recurrent,

subtype

表型永遠是遺傳學研究最關鍵的環節。

先挖個坑。

總的來說，抑鬱症的基因成因 is: highly complex, polygenic, epigenetic and epistatic. 這種疾病的成因和環境有很大關係，但是表遺傳學顯示：母體所處的環境會為改變母體的表遺傳(後天基因改變)，並傳給下一代，使後代更容易罹患抑鬱症。

好了我坑挖完了。請大家揚起小皮鞭毫不留情地督促我完成這個答案因為我有拖延症。謝謝！！