了解不同的基因測序的真實功能,才不會被忽悠

【正經】以自然選擇為名,聊聊各種基因檢測靠譜不靠譜

夜神K2,生物狗 代碼狗 博士狗 單車狗 單反狗 單身狗 汪汪汪

其實寫知乎和公眾號以來經常收到各種私信問『 XX 基因檢測靠不靠譜』,但由於我特別懶幾年也不查一次留言,也懶得挨個查網頁什麼的,基本上也很少回。而且『靠不靠譜』這種事兒吧,其實對於缺乏基本的遺傳學知識的人來說,不是一句話說得清楚的。並且我又非常討厭『基因』和『基因檢測』的概念,不同的遺傳檢測的檢測對象、技術手段、參考價值都差別巨大。所以今天這篇文就以自然選擇的選擇壓力為出發點,花點篇幅說說這些,關於孟德爾疾病、複雜疾病、複雜性狀,GWAS ,針對 SNP 位點的基因檢測、對基因外顯子序列全長測序的基因檢測。希望本來不那麼專業的觀眾能從自然選擇的觀點出發,學會判斷自己接觸到的基因檢測靠譜與否。所以內個,對此有了解的專業觀眾可以離場了。

I. 關於選擇壓力的引子

物種與物種、個體與個體之間各不相同,是源於突變。突變是隨機,在一定的環境下,大部分突變可能是有害的或者中性的,少部分是有利的。在中性突變出現時,大家表型沒有差異,多種基因型共存相安無事;在有害突變出現時,攜帶有害突變的個體受到自然選擇的選擇壓力,容易被淘汰;在有利突變出現後,沒突變的可能也會慢慢失去競爭力,受到選擇壓力而逐漸被淘汰。這就是我們今天的出發點,選擇壓力。

所以大家應該都有這樣的認知,越是不那麼嚴重的遺傳病——比如肥胖三高糖尿病、痛風帕金森老年痴呆什麼的,就困擾越多人、不是先天就有而是傾向於晚發病、感覺上有家族遺傳性卻又不絕對、受生活方式等環境因素影響大。而嚴重的遺傳病,什麼血友病、遺傳性耳聾、苯丙酮尿症,以及稍微輕一點的色盲,都頗為罕見、與生俱來、家族性非常明顯、幾乎不受環境影響——而且病症越嚴重,這些特徵就越明顯。究其原因,就是選擇壓力。

試想,一家人某個基因上有個特別牛逼的有害突變,僅僅是這一個突變,讓這家人的後人差不多三四十就會穩定地去見達爾文,或者說過了 25 歲男孩子的 JJ 就會沒法工作以至於繁殖不能(在生態學上講,這跟去見達爾文也差別有限了)。那麼顯然啊,這可突變面臨的選擇壓力就很大,於是乎這家人在繁殖這件事上與正常人比就有著天然劣勢,甚至一不小心就會團滅,這個突變肯定沒法在人群中廣泛傳播。於是這些病的特點和邏輯是這樣的:

超級有害突變

→ 相關遺傳位點極少 → 家族遺傳性明顯 → 簡單遺傳病 → 符合孟德爾遺傳定律

→ 選擇壓力山大 → 幾乎不受環境影響 → 人群中罕見

由於這些遺傳機理簡單的遺傳病符合孟德爾遺傳定律,我們也稱之為孟德爾疾病。與之相反,像二型糖尿病一樣的複雜遺傳病的特點就是,單個位點致病效應有限、選擇壓力小、參與疾病發生的位點 / 基因很多、有一定家族遺傳性但不確定、人群中常見、受環境因素影響大、不符合孟德爾定律。

以致病基因型常見程度為橫軸、單個位點致病效應(通常用讓步率,odds ratio 表徵,歡迎 google 之)為縱軸為坐標,就有了下面這個做複雜疾病的論文都喜聞樂見的一張圖:

(本圖修改自 GWAS 綜述文獻 Finding the missing heritability of complex diseases. DOI: 10.1038/nature08494 。是我入職華大後第一個 seminar review 的文獻,木哈哈。那會兒還不懂把 GWAS 發音發成『基瓦斯』還年做 G·W·A study ,特別土)

我們所說的『疾病』大多分布在左上到右下的這個區域,越是靠左上就越表現孟德爾疾病,越是靠右下就越表現為複雜遺傳病。比孟德爾遺傳病還厲害的,厲害到沒辦法穩定遺傳,這種病一定很罕見,比如新生兒腫瘤,也不知道咋地就秒跪了,根本來不及形成一種穩定可見的『遺傳病』。相反,複雜疾病在右下,比之更常見、更不承受選擇壓力的,那就不能被成為『疾病』而是需要稱為『複雜性狀』了。很多數量性狀比如高矮、肌肉丰度什麼的,就在這裡。身高這種性狀會產生選擇壓力么?當然會,事宜的身高顯然是漫長的自然選擇後的結果。但在目前正常人的身高範圍內,不至於發生『矮子沒法生孩子』或者『太高了容易在可育年齡前死掉』這樣的事情。左下角是一堆堆不常見又沒有啥卵用的突變,一般很少關心。右上角呢,基因型對於性狀的決定性強,所以一般不會有『疾病』存在於這裡——否則無論如何會受到很強的選擇壓力而不可能在人群中常見。這個區域一般都是一些幾乎沒有選擇壓力的質量性狀,比如耳屎乾濕、捲髮直發、不同血型、單雙眼皮、舌頭能不能打卷什麼的,遺傳機理簡單,無論哪種表型,都不太會顯著影響求偶繁育。

對於孟德爾疾病,往往通過患病家系的研究(連鎖分析)就能確定致病基因和位點。對於複雜的疾病和性狀,常見的研究方法是基於大規模人群的 GWAS(歡迎進一步 google )。而 GWAS 的結果是發現一些位點或特定基因型與某個疾病、性狀相關。但其最大的價值不在於發現位點本身,而是發現與該性狀相關的基因、通路、連鎖區域等。一旦基因功能獲得驗證,我們如果希望較為準確地預測性狀,就不應該只著眼單個被 GWAS 發現的位點,而是全部相關基因的序列。有沒有單個位點的基因型就很能說明問題的呢?也是有的。比如 GWAS 發現了 ACTN3 這個基因與爆發力強相關,編碼 a- 輔肌動蛋白 -3 這個酶,其中 rs1815739 這個位點的基因型作用顯著,odds ratio 在人群中可以達到 3.74( doi: 10.1086/377590 ,doi:10.1371/journal.pone.0093165 )( odds ratio 越大表示基因型對性狀的決定性越大:等於一時表示該基因型對該性狀完全沒有影響,為正無窮時為決定性影響,就像許多孟德爾疾病)。仔細想想是比較有道理的,爆發力這種東西,可以涉及比較強的自然選擇。但多數 GWAS 研究的 odds ratio 並不是太高,尤其是很多幾乎不涉及選擇壓力的性狀研究,比如各種唱歌跳舞什麼的所謂少兒天賦,研究結果也很難重複和驗證,參考價值就極其有限了,各位一定不要太當真。

好的,有了以上對於『選擇壓力』和性狀、疾病關係的基礎,其實我們就能很容易判斷基因檢測哪些宣傳靠譜、哪些內容參考價值更高、哪種檢測手段更適合自己了。

II. 好的,來說基因檢測

根據檢測對象的不同,基因檢測其實分為很多種,比如針對染色體水平變異進行檢測的 21 三體、18 三體、染色體平行異位產前檢測,比如針對人群中較為常見的 SNP 進行基因型分型的檢測(低通量的可以用 PCR 、一代 Sanger 測序、飛行質譜完成);高通量的可以用分型晶元,亦或是針對給定基因的外顯子全長測序(稱為 Panel 測序)甚至是全基因組測序。

II. i. SNP 分型產品

目前大部分消費級產品,其實是『(人群中較為常見 SNP 的)SNP 分型產品』,所以對照上面的圖,其能檢測的是『決定簡單性狀的 SNP 』、『決定孟德爾疾病的常見 SNP 』,以及 GWAS 發現的『有關複雜疾病、性狀的人群中常見的 SNP 』。因為其檢測對象是有限個 SNP ,不能排除相關基因其他位置出現罕見突變從而影響了疾病、性狀表型的可能性,其結果未必(其實是幾乎不)具有臨床參考價值。有臨床參考價值的情況是啥?就是你真的被這幾個 SNP 檢出簡單疾病的致病基因型(大部分時候你應該已經知道了吧……畢竟孟德爾疾病大多都老嚴重了……),或者陽性攜帶(比如報告里說攜帶遺傳性耳聾基因型)。對於簡單疾病,SNP 分型檢測說沒有『在有限個 SNP 中』檢出致病基因型,並不代表一定沒有致病因子(雖然出現罕見不良變異的概率也並不高)。而對於複雜疾病的 GWAS 位點的檢測,無論報告基於這些『有限個 SNP 位點』的檢測,給出了『致病風險可能高於常人』或『低於常人』的結論,都無需太過在意。評價複雜疾病風險,是一項非常複雜的任務,即便是考慮了許許多多相關基因的序列、生活環境、家族遺傳,也未必能夠準確預測,何況是僅僅對幾個人群中常見的 SNP 進行評估呢?況且有了自然選擇這桿秤,人群中越常見的 SNP 的作用效應也一般越小,檢測的又是常見 SNP ,想必不論是怎樣的基因型,都『壞不到哪裡去』。

所以我們來總結一下 SNP 分型類產品的靠譜程度:

孟德爾遺傳病(簡單疾病)、藥物反應(簡單性狀)、營養代謝(多數為簡單性狀)的『壞結果』

> 孟德爾疾病、藥物反應、營養代謝的『好結果』,簡單性狀的解讀(血型、狐臭、耳屎乾濕、鏟狀牙,大部分你自己已經知道了所以其實沒太大卵用)

>> 複雜疾病的健康風險提示

> 複雜性狀的解讀(質量性狀>數量性狀,選擇壓力越小參考價值越小,比如你覺得小孩兒唱歌畫畫的所謂『天賦』能有多大選擇壓力?)

所以啊少年們,知道隨便找個基因測個一兩個 SNP,就聲稱可以解讀『兒童 #%*(&$W% 天賦』這種絲毫沒有選擇壓力的事兒,是有多獵奇了吧?也知道 SNP 分型產品中提示的複雜疾病健康風險,其實並不需要太擔心了吧?

II. ii. 外顯子測序產品

那麼既然 SNP 分型產品對於複雜疾病其實參考價值有限,那有沒有更好的解決方案更準確地預測疾病風險呢?其實外顯子測序 / panel 測序產品就可以提供相當程度的臨床價值。

最好的例子還是安吉麗娜朱莉在 Myriad 公司測了 BRCA1 和 BRCA2 兩個基因外顯子全長的故事。首先我們知道的是,朱莉家躺槍於乳腺癌的姐們兒實在是太多了,顯然是家族遺傳性乳腺癌,弄不好有團滅風險。這說明啥?他們家攜帶的這個或者這些致病突變,選擇壓力大啊!壓力山大!應該在那張圖的左上角啊,顯然是選擇壓力大 + 家族遺傳 + 人群中罕見,肯定不是 GWAS 研究揭露出來的常見基因型啊。

從SNP 分型產品對於『複雜疾病其實參考價值有限』到誇兩個基因外顯子測序查出朱莉家病症確實存在一定的邏輯問題。乳腺癌本身是屬於複雜疾病無誤,但是涉及到朱莉一家的家族性乳腺癌,OR 極高遺傳性明顯,如果查出在人群中低頻的、關鍵的致病突變,已經可以將『這個 case 的這個家族性乳腺癌亞型』歸為『孟德爾疾病』,一般非專業讀者很難 get 到這個事兒的本質是,外顯子測序解決了『看似複雜實則簡單的疾病』的問題,會被誤導認為外顯子測序對複雜代謝疾病同樣有效。沒有明確二者之間的區別,沒有警示外顯子測序對於複雜代謝疾病的局限性和無力,這是我的問題。

想全方位評估健康風險的話(尤其是和腫瘤有關的個體遺傳風險),還是安安穩穩地做相關基因的外顯子測序、panel 測序、全外顯子測序或者是全基因組測序吧,SNP 分型產品一概沒有臨床參考價值。某上市公司測幾個 SNP 就賣幾萬幾萬的某加防禦某加守護什麼的真是夠了,除了尊貴指數和節操碎末化程度以外沒有任何參考價值。

III. 大流氓常用表述

於是乎我總結一些基因檢測垃圾產品常用的句式,來幫大家比較簡單地鑒別騙子:

1. 『檢測準確率 95% / 99% / 99.9% / 99.97% 』:檢測準確率指的是 PCR / 測序 / 質譜的分型準確率,這個玩意兒沒什麼好講的。但檢測準確率跟性狀預測的準確率根本不是一碼事。越是不靠譜的產品越愛用這種話混淆是非,比如所謂兒童天賦什麼的,幾乎沒有絲毫預測參考價值可言,卻最喜歡說;基於少數常見 SNP 的乳腺癌評估產品,根本就忽視了家族性遺傳和罕見突變的影響,應該誠懇地向消費者講述 GWAS 、SNP 分型的參考價值。而用這樣話誤導人認為『預測性狀準確』,是非常辣雞的行為。

2. 『安吉麗娜同款』:上面已經噴過了。

3. 『基因決定 ***』:基因型能夠決定的只有簡單疾病和簡單性狀,複雜健康問題和複雜性狀,不能用『決定』這個詞兒。

4. 『精準醫療 / 精準教育』:你就測個 SNP 的話就敢提『精準』,是不是想精準騙錢?

5. 『天賦 / 潛能』:換啥詞兒都是騙。

6. 貼個質譜圖:尤其是產品介紹里貼個測序儀的,你檢測報告里貼個毫無用處的質譜圖是打自己臉么。

7. 『大數據』:高通量產品(無論是高通量 SNP 分型,還是外顯子 / 基因組測序產品)都會產生很多『暫時不能解讀』的數據,確有數據價值。但低通量產品就是騙人了,捎帶騙投資人,你一個測飛行質譜、PCR 、sanger 的,測的全是別人文獻里發表的東西,對未知位點一點都不研究,哪來的大數據?說你呢在報告里貼質譜圖的那個,裝只裝給你們人傻錢多速來騙的土豪投資人是吧。

# 這樣的投資人請介紹給我 #

就是這樣,但願對大家有用。
推薦閱讀:

我所了解的顧水如先生(一)
作為中國人,你真的了解古詩詞嗎?
看HTC中國VR狀況調查問卷 一起來了解虛擬現實現況
老話說「茶七飯八酒常滿」,民間老話中的人生智慧你了解多少?
您了解嗎?水沫玉——翡翠的姐妹石

TAG:基因 | 忽悠 | 真實 | 了解 | 測序 | 功能 |