科學算命：測測你什麼時候生孩子？

01-29

相信很多人都在學生時代和好基友或閨蜜們探討過將來誰最先生小孩。在我們的個人體驗里，這樣的問題和遺傳是八竿子打不著的，似乎更應該由社會、家庭以及個人奮鬥（or歷史進程）等因素決定。然而本月的《自然·遺傳學》上就發表了一項與之相關的GWAS（全基因組關聯分析）研究（Nature Genetics 2016）。該研究找到了12個與初次生育年齡和生孩子的數量相關的遺傳位點。研究人員同時還猜測部分位點會影響到性激素的分泌或者與不孕不育有關。

這篇論文的結果並不是本文的關鍵，我更想介紹的是這篇文章的方法——GWAS。GWAS是很有爭議的一種方法，如果黑粉也算粉的話，GWAS可以算是最流行的基因組學研究方法之一了。GWAS的中文名叫全基因組關聯分析，可以被用來在全基因組範圍內尋找基因型與表型之間的關聯。基因型和表型的關係算得上是遺傳學的核心問題。小到性別、ABO血型這些收錄在高中課本中的簡單性狀，大到糖尿病、癌症等複雜性狀都算得是表型。簡單的基因型與表型的關係可以通過傳統的遺傳學方法來闡明。而那些很複雜的性狀通常都是由多個基因控制，且單個基因的貢獻都不是很大，此時GWAS就可以派上用場了。已經被GWAS研究過的性狀多達上千個而且五花八門，開始大家研究的多是複雜疾病或者身高體重這些比較正常的性狀，但現在畫風已經越來越奇怪了。除了這裡提到的初次生育年齡和生孩子的數量外，就在今年還有關於受教育水平（Nature 2016）、初夜年齡（Nature Genetics 2016）等的GWAS研究發表在了高水平期刊上。當然也有些研究純粹是商業公司用來博取用戶眼球的，比如23andMe這家公司就通過GWAS研究過胸的大小（BMC Med. Genet. 2012）、青春痘（J Invest Dermatol. 2015）以及夜貓子（PLoS Genetics 2016）等性狀。

GWAS算是蠻古老的一種方法了，相關概念在20世紀90年代就被提出了。比如Leonid Kruglyak在1999年通過模擬實驗推算出至少要50萬個SNP（突變的一種，單核苷酸多態性）才能做GWAS。當然，SNP的數量在2016年已經完全不是問題了，現在的dbSNP資料庫中一共記錄了1.5億個突變（包含了稀有的SNP和微小插入與缺失突變）。最早的GWAS研究發表於2005年，不過公認的第一項設計精良的GWAS研究是發表於2007年的Wellcome Trust研究（WTCCC）。這項研究利用不到2萬人的數據研究了包括糖尿病、類風濕關節炎等在內的七種常見複雜疾病，並且成功找到了不少全新的致病基因。也正是自2007年起，GWAS研究越來越多，人類基因組學正式進入GWAS紀元。

說起GWAS的原理其實是非常非常簡單的。舉個簡單的例子，假設我們拿到了一筆錢去研究某種很常見卻很複雜的疾病，現在我們找來了2萬人，其中一萬人有這個疾病，另一萬人沒有。假設我們只關注兩個不在同一條染色體上的SNP，並且其中有且僅有一個SNP和這個疾病相關。我們通過給這2萬人測序或者使用基因晶元收集到的數據如下：

1號SNP在這群人中只有兩個等位基因，A或T。其中在有病的人群里，A的頻率是0.8（T就是1-0.8=0.2），而在沒病的人群里，A的頻率是0.3
2號SNP在這群人中也只有兩個等位基因，C或G。其中在有病的人群里，C的頻率是0.9，而在沒病的人群里，C的頻率也是0.9

根據以上數據，如果我問你到底是1號還是2號SNP和這個疾病有關，相信你一定會說是1號。因為2號SNP的基因型頻率分布不受疾病狀態影響，而1號SNP的基因型頻率則與有無疾病相關。如果你了解統計的話，也可以算算odd ratio並通過chi-squared test獲得P值。下圖展示的也是同一個意思。

當然實際研究比這些玩具例子要複雜多了。首先是現在的GWAS研究常常涉及到幾十萬人，就實驗方法而言，全基因組測序雖然在慢慢變成主流，但目前大多數研究還是在使用基因晶元。基因晶元的問題是不能覆蓋到所有的SNP，所以有可能真正起作用的SNP並沒有被檢測到。當然我們可以利用連鎖不平衡的原理來解決這個問題，但由於有重組的存在，這一解決方案並不完美。此外，GWAS研究還會受到性別、人口組成等混淆因素的影響，因此優良的實驗設計是必須的。比如像開篇的關於生孩子數量的GWAS研究的對象是歐洲人群，如果換成中國人群可能就沒有意義了，因為對於生孩子數量這個性狀而言，中國政策的影響可能遠大於遺傳。另一個問題就是統計上的困難。通常GWAS研究會涉及到上百萬個SNP，如果按照我們常用的P值<0.05的標準，假陽性的比例就太高了，因此GWAS研究經常要求P值<10^-8。

對於GWAS的原理，我們再來總結一下。我們先找到一個想研究的性狀，然後找到兩群人，一群有這個性狀，另一組做對照。在考慮到可能的混淆因素的前提下，通過對比上百萬個SNP在這兩群人中的基因型頻率分布來找到與該性狀相關的遺傳位點。GWAS研究中，每個SNP都會有一個P值。為了方便可視化，幾乎所有GWAS研究都會附帶一張曼哈頓圖，圖中每個點對應一個SNP，x軸是SNP在基因組中的位置，y軸是-log10(P)，因此點越高越顯著。「曼哈頓圖」這個鬼名字的由來是大家覺得高高低低的點很像是曼哈頓的天際線（下圖的天際線是多倫多的）。

前面還提到GWAS有很多黑粉，最後我們就來談談GWAS的黑點，一般有三點。首先，相關不代表因果。考過GRE的人應該都做過不少邏輯題，很常見的一種邏輯錯誤就是混淆相關性和因果性，而通過GWAS只能找到相關性。如果找到的SNP正好影響蛋白質編碼還好說，通過額外的實驗不難驗證因果性。但實際情況是大部分通過GWAS找到的SNP位於非編碼區，至今功能不明。其次，很多找到的SNP對實際性狀的影響很微弱，平均odd ratio僅為1.3。最後，GWAS還有一個黑點是所謂的「消失的遺傳率」（missing heritability）問題。遺傳率是指表型方差中遺傳方差的比例。而GWAS研究得到的遺傳率不到流行病學調查得到的一半。這個問題大家一般都歸咎於目前的GWAS處理不了稀有SNP（就是次要等位基因在人群中頻率很低的SNP），以及遺傳互作導致的「幻影遺傳率」的存在。由於這些黑點的存在，以及全基因組測序越來越便宜，GWAS的研究數量從2013年起停止增長，估計未來也終將沉睡在教科書中。

那麼知道這些對普通人有啥用？我覺得很大的作用是防忽悠，有很多沒有找到因果關係的、odd ratio很小的、遺傳率很低的GWAS或類似研究結果被應用在了商業活動中，比如新聞報道過的某某婚戀網站號稱可以通過「基因配對」來尋找伴侶，也有某些商業公司通過基因晶元來預測疾病風險，以及將來可能會出現的通過測序來預測你生孩子的年齡或數目等。現階段想通過遺傳學來算命多少還是有點young和naive的！