40%的中國人的Y染色體來自3個新石器時代的超級祖先

2013年10月15日,我在arXiv文章資料庫掛出了一篇文章(http://arxiv.org/abs/1310.3897,帶附件的下載地址見http://vdisk.weibo.com/s/qGPNPvCSIf0t),題目是?Y Chromosomes of 40% Chinese AreDescendants of Three NeolithicSuper-grandfathers?,即《40%的中國人的Y染色體來自三個新石器時代的超級祖先》,基本內容如下:首先是對110個東亞樣本做Y染色體測序,得到質量可以接受的序列共78個。從裡面找到了4000多個新的SNP位點,命名以F(復旦)打頭。因為我們捕獲來測序的範圍是隨機的(取的Y染色體上沒有重複的約4Mbp的很多不連續片段的集合,與已知支系信息無關),範圍又比較大,所以可以畫一棵明確且沒有偏向的演化樹(因為絕大多數位點都是沒有回復突變的),然後就能按傳統的分子鐘方法計算時間了。

計算相對時間只要數每支的突變個數再相比就行了(因為有波動,具體時間還是按最大似然法綜合算的),但絕對時間,就是說平均一個突變到底需要多少年,是需要標定的。這裡我們先只用了一個1×10-9/年/鹼基的突變率。文里用SNP算的相對時間能比用STR算出來的准很多(文中說了,準確度的誤差範圍和用於計算時間的SNP數開根號成反比)。標定的絕對年代(即SNP的絕對突變率)也許還有些誤差,但至少結果也在以往各種方法估出來的範圍之中(以往算出走出非洲年齡最小的不到4萬年,最大的8萬年,我們算出5.4萬)。

文章的結論

文章最大的亮點有兩個,一個是能相對以往準確得多地算出分支時間,至少是相對時間,另一個是發現O3下面的三個大的星狀擴張(下面具體談到)。以往用Y-SNP不能算時間是因為實驗是特地挑的已知SNP來做的,數量少,且本身帶有偏向性。而本實驗是不帶任何人群方面的預設來找的SNP,是不帶偏向性的。線粒體全測能算時間也是同樣道理。當然因為Y染色體位點多,平均每100年左右就能有一個突變(用全序,即10Mbp左右的範圍),而線粒體平均要2000多年才能在全長上有一次突變,因此Y染色體算出的時間精度能比線粒體好很多。

支系方面比較重要的結論有以下幾點:

1.走出非洲的C、DE、F三大支的分支年代在5萬多年。雖然C和F在一起而DE是早分出的,而因為E主體的分布是在非洲,本來有人提出CF和D可能是兩批分別走出非洲的,但我們發現CF共有的SNP只有3個,對應大概不到1000年,這樣C,DE和F仍是准三叉,根據奧卡姆剔刀原理,還是M168+整體遷出非洲然後E那支再迴流非洲的可能性稍大一些。

2. F支經歷過極強的瓶頸,以致於和C分開後過了差不多2萬年才再一次產生下游分支G, H,IJ, K,K下面的分化也很快(NO,P和LT目前來看也是個准三叉,M和S因為沒有樣本,現在拓撲關係還不明朗),也就是說,F支下面按字母分的單倍群從樹榦上分出的時間大體都在3.6– 2.4萬年前之間,尤其3.6 –3萬年前是一個快速擴張的時期。O3-M122與O1-M119、O2-M268分開後不久,O1、O2再分開。而下游的分化總的次序是O2最早,其次O3,而O1最晚(不過可能和這次測序的O1樣本多數取自華東有關,多取一些南方少數民族的O1樣本可能會有一些更早的分支。)

3. O系的地理布散,尤其是O3a-M324(佔中國人口的一半以上),主要發生在1.9 –1萬年前,即末次冰盛期(2.3 –1.8萬年前)之後的舊石器時代。這段時間全球氣候逐漸回暖,海平面從現在海面以下上百米一直升到和目前海平面接近的高度,人類的可活動範圍大大擴展,技術上也有了一些創新,比如陶器的發明,農業也出現了萌芽。

4.在樹上觀察到,5000到6000多年前左右,在中國出現了三個超級祖先,一個在M117下,一個在M134的另一個分支,即F444下,還有一個在002611的下游F11下。這三個超級祖先出現的年代很接近(次序按不同方法算出來有所區別)。我把他們分別稱為Oα,Oβ和Oγ,算作對現有單倍群命名系統的一個改進。這三個大約6000年前的人的後代構成了現在漢族人群的40%以上。之所以很特別(因為一個人群往上推總會推到某個時候有個祖先的後代佔了一大半),是因為在這三個擴張以前的Y染色體樹的所有分支,都是二叉,而這三個擴張是星狀擴張,即突然從一個人演化出難以分出先後(這篇文章的測序精度是平均250年一個突變)的5– 7個支系,而且這5 –7支是都有後代一直延續到現在的。長支或二叉當中的那些古人當然不是說那些人都沒有兄弟,而是說無數輩的兄弟都沒能傳下男性後代,當時的人口擴張也相對緩慢,只有這幾支幸運兒的後代終於活到了現代。

5.C3-M217是佔中國10%左右的大支系,很清楚分為南北兩支,2.6萬年前分開,比O3和O1』2分開還略早。結合STR結果來看,漢族的C3基本都是南支,且存在一個6000多年前的擴張(可能比O3下的三大簇略早)。漢族和北方民族都常見的C3d-M407屬於南支那個擴張下游的。而星簇(starcluster,以前Zerjal etal.說是成吉思汗生出來的)、448-del兩個重要支系(應該也有C3c-M48)屬於北支。C3的北支基本在漢族裡不存在。關於C單倍群的更多細節,我的同事蘭海應該會發表一篇paper來說明。

6.N單倍群的最早分化也在1.6萬年前。也分為南北兩支。結合STR來看,原先的N1a-M128和N1c-M46(應該也有N1b-P43)都是北支的。關於N的更多細節,我也會另外寫一篇paper來講。

文章里沒寫的(因為文章本來要投大雜誌的,因篇幅有限或說了會被審稿人挑刺所以沒放在文章里,或者被別人搶去的,或是證據不足的猜想):

7.時間估計的不精確性。因為原先文章里的用STR計算突變率有一些問題,在後來投的稿里這部分被砍掉了。但相對的STR時間計算是沒有問題的。這裡給出兩張散點圖,比較相同的兩個樣本用17-STR得出的時間和直接數相差的SNP數的對比。前一張圖是所有樣本間的兩兩比較。後一張圖是Oγ星狀擴張中每對共祖於星點的兩個樣本的STR計算時間和相差的SNP數的對比。因為是同一個星,理論上兩個樣本的共祖時間幾乎相同。可見SNP算出的時間精度遠好於STR算出的,而STR得到的結果經常可能差出一個數量級以上。或者說,兩個樣本STR很遠的可以排除近期的共祖,但STR近的,實際共祖時間可能很晚但也不排除實際很早但是因為巧合而STR接近了。經常有人問,我們兩個人STR差4個點,到底能差多少年,我說100年到1萬年都沒準,這確實不是搪塞。

8.這三個超級祖先到底是什麼人。首先,這個擴張年代正好在五六千年前,屬新石器時代晚期,對應的文化包括仰韶時代晚期和大汶口文化晚期等(我知道有人認為這三個擴張不是發生於黃河流域的,留以後發現更多證據,尤其是古DNA證據來回答了。)這個時代我知道的有兩個大的變革,一個是農業的大發展,穀類從採集、狩獵的輔助食物變成了食物的主體部分,人們的食物開始嚴重依賴農業,同時聚落的分布密度大大增加,說明人口增加。同時又有一個社會結構的變化,墓葬從群體葬逐漸發展出了單人葬和對偶葬,說明社會從母系社會變成了父系社會。因此,對於這三個超級祖先,有兩種解釋:其一,他們是最早的集約化農民,因為生產力(穀物和人口的)大幅發展,成了超級祖先,因此稱Oα,Oβ和Oγ分別為「農民甲」、「農民乙」和「農民丙」。有人不相信這種解釋,認為他們肯定是很偉大的部落首領,有巨大的權力而能佔有很多女人,建議用三皇來稱呼,我按照計算出的時間,分別把Oγ,Oβ和Oα分別稱作「天皇」、「地皇」和「泰皇」。(還有建議把他們稱作「炎帝」、「黃帝」和「蚩尤」的,因為時間不符合,而且因為可能有歷史原型而對應支系可能被證偽,再加上「蚩尤」從民族學上看大概對應苗瑤的O3a2b-M7而不屬這三大簇,所以我覺得還是用純神化的三皇更合適一些。)當然用三皇命名有些人會覺得神棍一些,寧可用「農民」,不過其實把人類父系共祖稱作「Y染色體亞當」同樣神棍。我覺得反正這三簇是客觀存在的,短時間也不容易證明到底他們是什麼樣的人物,那稱作農民還是三皇就看個人信仰了。

9.除了三個O3下面的超級祖先,另有兩支也需要關注,一個是C3下面F1144的下游擴張,即南支,擴張時間可能比O3的三大簇略早,另一個是O1a1下面F78的下游擴張,年代可能只有4000年不到。這兩支的人口大概也各佔了漢族的10%上下,但因為高通量測序時沒有足夠的樣本或有的樣本測序質量不好,尚未能表現出星狀擴張,但我相信如果能擴大測序樣本的數目,也是能找到類似星簇的擴張的。(我還暫時沒有給這兩支起名字。)這樣,把這兩支也加上,這五個新石器祖先的後代就能佔到漢族及中國人60%的比例了

(上圖是五支祖先大致的分布範圍和所佔人口比例。不是嚴格計算,漢族之外的支系判斷可能有錯。)

10.關於華夏的起源。因為這篇文章計算了時間,所以明確了,漢族(或中華民族)的大多數姓氏的都起源於一個幾千年前叫黃帝的共同父系祖先必然是不可能的。新石器時代晚期最大的簇(Oα)也不過占漢族父系的16%。不過,這篇文章同樣也說明了,史前不遠的時代,華夏確實有少數幾個超級祖先,他們短時間繁殖出了大量的後代,也就是說這些有關共同祖先的傳說確實是有其原型的,只不過其重要程度被誇大了

文章發表歷經的坎坷

很多人,包括愛好者和業內人士,都知道我的結果早就出來了,這兩年一直都在催問我文章什麼時候能出來,位點什麼時候能公布。首先,按照通常的科研規範,似乎文章沒有經過同行評議,文章沒有發出,是不能對外發布消息的。其次,文章是實驗室老師辛苦申請基金、多人多年合作做出的結果,隨便公布數據而沒有相應文章發表是損害實驗室利益的,而今後繼續申請科研基金、評職稱等等,按目前中國的體制,全看文章的影響因子,且只有一作和通訊作者算數。其他的,至少對於生物學來說,發中文文章不算有效工作,合作作者不算,出書不算,做科普不算,這些只能在有閑的時候做。所以,對於這篇文章,首先只能考慮發paper,而且雜誌分數越高越好。

這篇文章首次投出是2011年11月,這兩年先後投過Nature, Science,Nature Genetics, Nature Communications,PNAS。有的雜誌是被編輯直接斃掉,還有的雜誌是跟審稿人撦了好幾次皮,先後投過3個版本,歷經9個月,最後被拒掉的。幾次投出之間還有過好幾次大的內容的刪改,比如突變率的計算方法和SNP-STR對照比較等,還有改文章的著重點等。前一次拒掉和下一次投出之間改文章經常又要花幾個月。這兩年,好幾篇實驗做得並不如我們的文章登上了Science或GenomeResearch這樣的雜誌,我們文章的新穎性也越來越差。

最終為了避免文章中的發現變得一錢不值,我出於促進知識傳播和對我的青春負責的理念,決定還是先把文章公開到arXiv上。這個資料庫是沒有同行評審的,也就是說只有靠讀者來衡量文章的價值。但這上面的文章能被引用。有同行評審的雜誌我也還在投著,就算能發出去,分數也沒多少了。從考核體系角度看,這四年的我和同事的工作和花的研究經費就算喂狗了,我的穩定教職也沒戲了,只能繼續做一個二站的博後。(話說,有時候很明顯從編輯和審稿人打回的意見里能感覺到對中國或東方人的歧視。這篇文章的作者全都是中國人,復旦大學或者中科院計算生物所的成員。因為發表時間拖久了,文章本來的亮點一個個被別人的文章搶了去,也只得把題目從一個全球性的時間計算改成關於中國人祖先擴張的,導致文章更難發表。如果是關於猶太人或者歐洲人的文章,經常是隨便一點兒數據都能發到高分雜誌。之前曹操後代那篇文章也只投到了日本的Journalof Human Genetics雜誌。)

這期間我如果做錯了什麼,或者什麼原因造成的文章難以發表,有什麼更好的信息發布方案,都可以幫忙指出,如果有辦法能同時兼顧知識傳播和實驗室利益,我會很感激的。

首發於2013.10.18,新浪博客修改於2014.01.30


推薦閱讀:

【陶器】新石器時代齊家文化02
「法國簡史」凱爾特人 高盧人,法國血統的起源
東亞大陸考古文化 紅山文化 石卯考古 與 黃帝的都城 朱開溝文化與北方游牧民族
欒豐實:新石器時代考古
大歷史---新石器時代

TAG:中國 | 中國人 | 染色體 | 染色 | 時代 | 新石器時代 | 石器 | 祖先 |