聽說你也是個非洲人?
咦?!竟然不是誒!
但在本寶寶的基因檢測中,卻赫然並沒有發現一點點的非洲血統?!難道我其實並不是一個非洲人?(可是這也不對啊,光憑我遊戲抽卡永遠不中SSR這一點,我也應該「非氣衝天」才對啊!)
其實啊,非洲起源論和民族血緣的分析就是無關的,準確的說,民族血緣的分析正好就是刨除了非洲起源因素之後剩下的部分,它所關注的是「近期」的事情,可能是近10000年的事兒,也可能是近1000年,近100年,乃至近幾十年的事情。但「非氣衝天」說的就是百萬年數量級上的事情了。人人都是非洲人,這一點肯定是沒錯的,這是一個長長的故事……
爸爸的爸爸是爺爺,
爺爺的爺爺的爺爺……
的爺爺是……
1995年,道瑞特、阿卡西和吉爾波特三位科學家【8】測定了分處世界各地,共38名男性Y染色體的ZFY基因區,得到了一個令他們大吃一驚的結果:被檢測的ZFY基因區中,38人的DNA序列,竟然完全相同。難道這38名沒有任何親戚關係的男人,都是一位風流好色的男人在世界各地所留下的後裔嗎?這聽起來,實在是如同天方夜譚一樣!
後來科研人員通過大量的基因分型研究發現,現代男性的Y染色體上都帶有M-8-9,M-1-3-0和YAP這三種古老的Y-SNP,而這三種突變是在M168突變型的基礎上產生的。M168被認為是人類在非洲時產生的突變型【12】,也就是說目前的人類,有一位共同的男性祖先,並且估算大約生活在27萬年前。這個男人被稱為「Y染色體亞當「。也就是我們所有人的爺爺的爺爺的爺爺……的爺爺。【2】【6】
如果Y染色體DNA序列都相同
怎麼區分不同民族呢?
現代人類擁有23對染色體,其中一對是性染色體,男性為XY、女性為XX,其中Y染色體只由男性傳給下一代男性。研究發現Y染色體有95%的區域為非重組區,意思就是說:在這個區段內的字元信息,一般是不隨每代的遺傳發生變化的,因此被稱為「Y染色體非重組區」,這種父系遺傳忠實的記錄了人類進化事件。這個區域進一步被劃分成218個更小的「字元特區」。在這些「特區」當中,在經歷幾十、上百代的遺傳之後,其中的某個,或某幾個基因字元,可能會發生變化,也就是產生了「突變」。這種「突變」會隨著遺傳,一代代傳下去,成為某一個族裔所擁有的特殊的標記。越到後代,所承受的「突變」也就越多、標記也越細緻。令人驚異的是:這些突變所產生的標記,雖然歷經幾萬年、上千代的傳承,數億次的「拷貝」,仍可以保持清晰、準確,分毫不差。因此,我們說「Y染色體的非重組區」,是人類父系族譜的最忠實無誤的記錄文件。
我們可以根據家系、古DNA估算出這種突變率。通過突變率、突變數量,不僅可以推算出我們共同的老祖先生活在多少年以前,還能推算出我們的基因內還存在著哪些民族成分。【4】
23魔方-父系基因祖源遷徙路線
不難看出,本寶寶的曾曾曾曾曾曾…曾祖父是從東非高原翻山越嶺,一路上跨越紅海,在西亞地區安營紮寨,繼而向中亞、南亞次大陸等地區擴散遷移,又經中亞不斷向亞洲其他地區和美洲遷移,最後各自安定下來。
20世紀初,科學家們觀察了由19個單核苷酸多態位點(SNP)組成的Y染色體單倍型在我國22個省市漢族人群中的分布。結果表明,我國南北人群的Y染色體單倍型組成有較大差異,南方人群的多態性明顯高於北方人群, 而後者中的單倍型僅包含前者的一部分, 其中單倍型H7, H11, H12僅出現在南方漢族.同樣,其他民族也可由基因中存在的不同單倍型來區分開來。【1】【3】【9】也就證明可以通過基因型分別民族成分。
Where are you come from?
想知道個體的基因祖源,需要把基因組與一個已知明確種群分類的參考樣品集合做比對,通過其相似度來推斷出檢測者基因組民族祖源成分。
目前有很多方法可以估算基因組的種族民族成分(genetic ethnicity),但幾乎都要依賴一個成型參考集合資料庫,所以這個參考集合資料庫的質量對祖源民族成分準確度起到了至關重要的作用。
舉個例子:
為了獲得優質的參考基因組,23魔方祖源民族資料庫一共會經歷四個步驟:1)參考樣品選取2)親緣關係過濾3)PCA過濾 4)panel參考集性能測試。
1)參考樣品選取
難道參考集不應該用每個民族始祖的DNA進行定義嗎?
沒錯!
但不是每個民族都有古DNA樣本的,考慮到近百年來遷徙頻率加快,為了保證參考集的客觀性,23魔方設定了一個選取參考集的標準——三代同宗
(即從自己往上推三代祖先中都必須同一個民族,同一個省份),最大限度的保證了參考集的特異性。
2)親緣關係過濾
有親緣關係的樣品因為在基因組上格外相似,會引起頻率計算的偏向,如果一個參考祖源中的親緣關係樣品比較多,在某些SNP上的頻率就會額外偏高,所以對於參考集合第一步質控就是過濾有親緣關係的樣品。【5】
3)PCA過濾
PCA(Principal Components Analysis)主成分分析是在群體遺傳學上一個常用的基因組聚類方式。簡要地說,23魔方的晶元有70萬個位點,相當於從70萬個維度定義一個樣本,PCA就是把70萬維降維到2維平面(如下圖),一般情況下同一個地區的人群樣本往往會如圖中一樣聚集在一起,通過這種方式可以快速排除離群的樣本,使得參考集更純。
4)Panel參考集合性能測試
最後,需要對過濾後的參考集合做進一步的訓練測試。可以通過Leave-One-Out分析來對參考集合進一步篩查。對一些異常或者「不純」的參考樣品進行刪減,最終使我們祖源參考集合性能達到最優。
23魔方通過以上四步建立他們的民族資料庫,之後只要將數據導入資料庫進行計算就可以得到大家各自的民族成份了。
所以啊,雖然我們共同的祖先是起源於非洲,但是經歷過這麼二十多萬年的風風雨雨的遷徙,我們的遺傳基因也隨之發生了突變,繼而分化出了形形色色的不同的「種族」,而這些變化的信息,也都一一被記錄在了我們的基因密碼內,在基因檢測的時候,就會全部被顯現出來,呈現我們現在每個人不同的民族血統成分。
民族成分的檢測可以讓我們更加了解自己的祖源,然而基因檢測這件事兒可以為我們做的卻遠不止這樣。每個人體內的基因都秉承著從遠古祖先一代一代遺留下來的特質,對基因秘密的破譯和深入了解,能讓我們從各個維度都更加了解自身,不僅僅是一些遺傳疾病的風險預見,更多的是我們可以通過基因檢測的結果去找到更適合自己的生活方式,更好的審視生命。
參考文獻
1.俞建昆 應用30個常染色體STR位點研究中國6個民族群體的遺傳關係 遺傳學報 2001年第八期
現代中國人起源於非洲《Science》2001,292:11511153
2..Y染色體遺傳學證據支持現代中國人起源於非洲科學通報 第46卷 第五期
3.趙桐茂 免疫球蛋白同種異型Gm因子在四十個中國人群中的分布 《人類學學報》,1987(1):1-9
4.Genomic dissection of population substructure of Han Chinese and its implication in association studies.Xu S, et al. Am J Hum Genet. 2009.
5..Genetic structure of the Han Chinese population revealed by genome-wide SNP variation.Chen J, et al. Am J Hum Genet. 2009.
6.分子遺傳學在染色體起源研究中的應用進展國外醫學遺傳學分冊 第十八卷 第二期
7.錢亞屏, 初正韜, 褚嘉祐. 現代人類的起源和遷移:來自母性遺傳的證據[J].遺傳,2000(04):59-62.
8.RL Dorit, H Akashi and W Gilbert,1995. 「Absence ofpolymorphism at the ZFY locus on the human Y chromosome.」 Science268:1183–1185).
9. 柯越海 Y染色體單倍型在中國漢族人群中的多態性分布與中國人群的起源及遷移 doi:0.3321/j.issn:1006-9259.2000.06.008
10. 俞建昆 應用30個常染色體STR位點研究中國6個民族群體的遺傳關係 遺傳學報 2001年第八期
11. 趙桐茂 免疫球蛋白同種異型Gm因子在四十個中國人群中的分布 《人類學學報》,1987(1):1-9
12.柯越海, 宿兵, 李宏宇,等. Y染色體遺傳學證據支持現代中國人起源於非洲[J]. 科學通報, 2001, 46(5):411-414.
推薦閱讀:
※索馬利亞有多混亂?
※怎麼看今後5年,中國將向非盟提供總額一億美元無償軍事援助,以支持非洲常備軍和快速機動隊的建設?
※被遺忘的非洲
※中文語境下的黑人、印第安人等稱呼,是否屬於種族歧視用語?
※鉤編雙色非洲菊足球