在抑鬱症基因的探索上,弗林特設計的研究方法有什麼獨到之處?為什麼只有 CONVERGE 團隊成功了?
由華大基因、牛津大學、弗吉尼亞聯邦大學和中國五十多家醫院組成的國際聯盟(CONVERGE) 通過分析幾千名重度抑鬱病例的基因序列,發現了兩個與重度抑鬱相關的基因位點。
在 CONVERGE 之前,有研究收集了9000名重度抑鬱症患者的樣本然而一無所獲;另一個研究團隊 Psychiatric Genomics Consortium 將研究的樣本量擴大到了1.7萬個研究對象,最終也沒有任何收穫。抑鬱症的基因學研究的難點通常有哪些,弗林特的設計有什麼獨到的地方?為什麼只有這個團隊成功了?
首先慶賀同行們的突破,我自己也在做類似的東西(精神分裂症的基因學研究,也在申STAR*D),不請自來。
下面來正式回答問題
-------------------------------------------------------------------------------------------------------
遺傳類精神疾病的基因研究,是一個很複雜的過程。一個最簡化的模型是:
採集同一類病人血樣--&> 基因測序 --&> 全基因組關聯性分析 GWAS---&>發現等位點
但是這個過程里存在好多問題,難點。
第一,也是最主要的問題,很多研究的樣本不好。比如:- 精神類的疾病往往「錯綜複雜」,一些疾病,看起來都差不多,實際上卻是兩種病。一些醫生會錯誤的把A病的病人,放在B病的樣本里。
- 導致一些精神疾病出現的等位點很多,義大利人得抑鬱症可能因為1號染色體上某點,中國人得抑鬱症可能因為1號染色體上另外一點。這兩點表達的產物都與細胞通路有關,能產生病情。採樣的時候,需要控制病人的遺傳背景,家族背景。
- 不同性別之間,不同患者的疾病表現可能不盡相同。
在這種情況下,傳統統計學意義上更好的大樣本,反而不見得是好事。(2w 容量的mega analysis很可能什麼都研究不出來,因為樣本太混雜,控制FWER之後的p-value臨界值又太小,沒有足夠power)
對於這個最主要的問題,CONVERGE 團隊選取了,祖父母均為漢人的女性。對於發病時間,發病癥狀,進行了比較嚴謹的界定。 選出了一個比較「純」的樣本,為後續的研究提供了有利的條件。
(我在加拿大一家精神醫院做精神分裂的基因分析,真的很羨慕國內能有這麼大的樣本量..我們整個省的嚴重抑鬱症病人的數量,可能都沒有這個樣本量大。這個樣本是研究能成功的關鍵因素)
其次,就是魯明 前輩提到的,基因測序成本的問題
illumina 這家測序公司,用新一代測序,把測序的成本縮減到了1000美元/人. (實際會比這個高一些,因為做不到全年無休一直sequencing). 對比十年之前幾十萬美元/人的價格,降低了太多。使得採集相對比較大的基因樣本數 成為了可能。
綜上,CONVERGE團隊成功的兩大原因是:
1. 找到了一個相對」純「(homogenous)的病人樣本2. 依託先進的技術,高速而又相對廉價的,完成了對這些病人基因的測序。最後,依靠合適的統計學方法,找出了與重度抑鬱症相關的兩個遺傳變異。
所以,這個故事告訴我們,做研究,一定要學好統計呦。好研究, 從尋找好樣本開始
Reference:- CONVERGE consortium Sparse whole-genome sequencing identifies two loci for major depressive disorder. Nature. 2015;523:588–591. doi: 10.1038/nature14659. [PMC free article] [PubMed] [Cross Ref]
首先說明,我現在已經畢業了,在某高通量測序公司做GWAS產品經理。這個問題我還是比較有發言權的。
抑鬱症的複雜性我就不介紹了,原文里也提到過。目前的最高票答案,Jack Wang說,CONVERGE團隊之所以成功,是因為:CONVERGE團隊選取了,祖父母均為漢人的女性。對於發病時間,發病癥狀,進行了比較嚴謹的界定。選出了一個比較「純」的樣本。
並沒有說到點子上。
1) 如果Jack所說的比較純的樣本是指人種結構上皆為漢族,那他的理解是錯誤的;
多年以來所有GWAS研究最基本的選樣標準就是人群分層(population stratification),也就是人種的結構需要一致,否則怎麼知道找到的位點是 種族特異性的 還是 與疾病相關聯的;研究者又不傻,之前做抑鬱症的人並沒有忘記GWAS選樣「需要人種結構一致」這個最基本的準則。
2) 那麼,CONVERGE團隊的成功之處在哪裡呢?其實是因為他們採用了 Extreme-trait design(極端性狀設計)的原則。如果Jack的比較「純」的樣本是指這個的話,他並沒有表達清楚。簡單地說,他們的研究只選取病情非常嚴重的患者與未患病的對照組進行對比,嚴重到什麼程度呢?平均複發5.6次。作者在摘要中也說:
We attribute our success to the recruitment of relatively homogeneous cases with severe illness.
是因為Severe illness,而不是 single ethnic.
所以這項研究成功的原因主要有:
a) 選樣採用 Extreme-trait design 的策略,患病組只選取病情程度非常嚴重的患者;b) 採用低深度全基因組重測序進行更大量的SNP位點的獲取:
以往基於SNP晶元的GWAS研究涉及的SNP位點數量大概在30萬~60萬左右,但如果基於全基因組重測序,GWAS所分析的SNP位點數量會大幅度提高,以本文為例,用於GWAS分析的SNP位點是6,242,619個。出處如下:A total of 21,356,798 (9,053,391 known in 1000 Genomes Phase 1 ASN Panel and 11,486,024 novel) biallelic SNPs identified from all chromosomes and unassembled contigs. We then applied a conservative set of inclusion thresholds for SNPs for GWAS: (a) P value for violation of the Hardy–Weinberg equilibrium &> 10^-6; (b) information score &> 0.9; (c) MAF in CONVERGE &> 0.5%, to arrive at the final set of 6,242,619 SNPs for GWAS.
最後,對於不關心GWAS只關心這個突變位點會不會影響自己的大家的一個彩蛋:
duang~ 這兩個位點是這樣的:
SNP = rs12415800, chromosome 10:69624180, MAF = 45.2%, P = 1.92*10^-8; SNP = rs35936514, chromosome 10:126244970, MAF = 26.0%, P = 1.27*10^-8.簡單地說,這兩個位點的變異在漢族人群的出現頻率分別是 45.2%和26.0%,也就是說,你有我有大家有。覺得「有這兩個變異我就要得抑鬱症」的人可以洗洗睡了。
更通俗地說,是這樣的:日報的題目是:「終於有人發現,它們很可能決定了你會不會得抑鬱症」。這就像,研究發現男生比女生更容易得自閉症,然後日報小編說:「終於有人發現,是男是女,決定了你會不會得自閉症」 哈哈哈哈太扯淡了有沒有。
下附參考文獻:
1. 研究原文: Sparse whole-genome sequencing identifies two loci for major depressive disorder : Abstract : Nature2. 關於Extreme-trait design: Uncovering the roles of rare variants in common disease through whole-genome sequencing : Abstract : Nature Reviews Genetics利益相關: 諾禾致源疾病基因組事業部產品經理。兩個關鍵詞:recurrent,subtype表型永遠是遺傳學研究最關鍵的環節。
先挖個坑。
總的來說,抑鬱症的基因成因 is: highly complex, polygenic, epigenetic and epistatic. 這種疾病的成因和環境有很大關係,但是表遺傳學顯示:母體所處的環境會為改變母體的表遺傳(後天基因改變),並傳給下一代,使後代更容易罹患抑鬱症。
好了我坑挖完了。請大家揚起小皮鞭毫不留情地督促我完成這個答案因為我有拖延症。謝謝!!推薦閱讀:
※求對抑鬱症的綜合理解?以及如何走出抑鬱和抑鬱症?
※抑鬱症的留學生是退學回國比較好,還是留在大學繼續混日子?
※抑鬱症休學怎麼那麼難?
※你經歷過人生最苦悶艱難的時間是什麼呢?又是怎麼度過的?
※抑鬱症從大學退學,現在不知道是否要重新去讀書,該怎麼辦?