人類學雜記——51.一些作樹的基本知識

人類學雜記——51.一些作樹的基本知識

11 人贊了文章

這一陣在算樹。做樹方面有一個四物種分析的基礎知識:即只有三個物種的話,演化樹可能的拓撲形狀只有一個,反正就是一個三叉(圖1)。

圖1,三物種的樹

但到四物種就不同了,可能有3種不同的拓撲形:((A,B),(C,D))、((A,C),(B,D))、((A,D),(B,C)) (圖2)。這個樹的定法是這樣的:對於一個特徵(或者一個鹼基)來說,要麼是4個物種全同,這樣沒有樹上的信息量;要麼是一比三(比如A上是0、BCD上都是1),那麼最簡單的解釋是直接與A上相連的線段上發生了一次突變(方向不一定);要麼是二比二(比如AB上是0,CD上是1),那麼最簡單的解釋是如圖2的上圖,在中閒的橫線段上發生了一次突變。否則如果是按圖2的中圖或者下圖,至少要發生兩次突變纔可能。於是在回復突變和重複突變發生非常少的情況下,就能用這種方法確定樹形。

圖2,四物種的無根樹的三種拓撲形狀

需要明確一點,因爲不同演化階段的突變率可能相差很多,不一定和別的物種相差最多的就是分化時閒最早的(下一段落有討論)。所以對於一個四物種得到的樹形,我們並不能確定其樹根在什麼地方。眞實的歷史上的樹根在五條線段或者兩個節點上都有可能。因此只用無區別的物種得到的樹都是無根樹(unrooted tree)。需要得到有根樹(rooted tree),必須確定外類羣(outgroup)。一般來說外類羣應該選用和被討論的類羣有明確同源關係但又能和被討論的類羣截然分開的物種。這樣,我們就可以把外類羣和被討論類羣的物種一起做一棵樹,把外類羣和被討論類羣相接的線段作爲被討論類羣的樹根,就能得到一棵有根樹,分支的先後順序也就清楚了。例如,由某些特徵做出了圖2的上圖,其中如果A是黑猩猩、B是非洲人、C是歐洲人、D是亞洲人,我們知道黑猩猩明顯是人類的外類羣,那就以與A相連的線段處作爲根,那麼就清楚了,人類中B(非洲人)較早分開,而C和D較晚分開,樹形是 (B,(C,D)) 這樣的。因爲黑猩猩雖然已經是離人類最近的物種了,但Y染色體和人類的同源片段還是太少,用作外類羣會損失不少定根的信息,尼安德特人的Y染色體序列作爲外類羣就可以用於較好解決現代人Y染色體的定根問題(Mendez FL (2016) The Divergence of Neandertal and Modern Human Y Chromosomes)。

另外,因爲不同支系突變速率不同,按照鄰接的聚類方法得到的樹(Neighbor-joining tree, NJ tree)的拓撲形狀可能不同於上面通過maximal parsimony(最大簡約法,即,使樹上出現的總突變次數最少)得到的樹。對於沒有重組事件發生的樹(如物種閒的rRNA)、人類Y染色體和線粒體來說,只要回復/重複突變發生得足夠少,應該只有MP樹是反映眞實演化歷史的。比如對於圖3中,上圖的情況,定好根以後,應該如中圖,即是最大簡約法得出的歷史,A先分開,但演化得慢,B和C的演化關係較近。但如果按照鄰接法做聚類,首先是A和B最近,聚到了一起,然後和次近的C聚,再和外類羣定根,就會得到如圖3下圖的關係。二者的拓撲就有了區別。因此對於沒有重組且重複/回復突變很少的樹來說,應該選擇最大簡約法。可以說,最大簡約法做出的樹上的所有線段、節點位置,都是一個歷史上曾經出現過的祖先的狀態。對於沒有已知重組,但重複/回復突變常見的樹來說,可以攷慮最大似然法,估算各位點的突變率(很複雜,不細講了,怕講錯)。而對於頻繁發生重組,各特徵並不連鎖的物種來說,可以用鄰接法做聚類樹。但應該明確的是,聚類樹只能表示物種相互之閒的大致遠近關係,而不代表眞實的歷史上的演化關係,樹形上的枝和節點並不代表曾出現過的祖先。而且聚類樹的拓撲形狀受樣本的選取影響極大。

圖3,最大簡約樹和鄰接樹的區別

20世紀後期,硏究人員發現所有有細胞的生物都可以分爲三大類(域):眞核生物(Eukaryota)、細菌(Bacteria)和古菌(Archaebacteria,現稱Archaea)。很多特徵都是兩個域相同而與另一個域不同的。研究人員想要知道三者裡面哪個先分開,哪兩個之閒更晚分離。但找不到一個外類羣可以定根了。在Iwabe N (1989) Evolutionary relationship of archaebacteria, eubacteria, and eukaryotes inferred from phylogenetic trees of duplicated genes 這篇文章裏,作者找到了一個方法:生物體內存在一些蛋白,所有有細胞生物都有,而且擁有多個copy,而且三個域各自的A拷貝相互閒比和同物種內的B拷貝更接近。即物種內的A和B爲paralog(旁同源)關係,而不同物種的A是隨著物種分化而各自演化的,爲ortholog(直同源)關係。例如兩個互爲旁同源的蛋白EF-Tu和EF-G(圖4),或者那個長得像馬達一樣的ATP酶的α和β亞基。生物學家認爲兩種互爲旁同源的拷貝是在三域還沒有分離時就存在於所有細胞生物的共同祖先裏的。這樣,把旁同源的分子在所有域中的拷貝都放到一起做樹,EF-Tu和EF-G互爲外類羣,就能找到樹根的位置了。大多數這樣的分子都顯示爲:細菌較早分開,而古菌和眞核生物更接近。

圖4,EF-Tu和EF-G的樹

圖5,三對旁同源的分子顯示出的樹形關係。A:古菌;EK:眞核生物;EB:細菌

polyhedron

2018.08.03

新浪博客

推薦閱讀:

TAG:人類學 | 進化 | 語言演變 |