構建進化樹的意義是什麼?除了看親緣關係之外。

按照序列(DNA或者蛋白質)構建


這個可以玩出的花樣可多啦,來拋堆磚。。。圖多殺流量!

按DNA或蛋白質序列構建樹,一般歸為譜系發育研究,其中建樹是非常關鍵的一部分。

建樹的基本目的,是理清手上一把序列之間的相互關係,這和聚類任何其它東西都很類似,最直觀的做法就是兩兩比較,按某種定義算出距離,然後按距離遠近把它們排個序。這是建樹的基本方法之一,距離法,基本就是聚類方法。這種類型的樹可以說體現的只是序列間的相似程度。

但是建樹還有另外兩種方法:最大似然法和貝葉斯法。這兩種方法與聚類有什麼不同呢?個人認為關鍵在於,一般的聚類是基於一系列靜態的特徵,而譜系發育中考慮的是隨時間變化的一系列特徵,具體到DNA和蛋白質序列,就是DNA鹼基對或蛋白質對間的相互替代速率。

比如具體來說,兩條序列ACTTG,ACTTT,在距離法中,我們所考慮的差別就是它們僅相差一個鹼基。但如果使用另外兩種方法,首先我們需要定義一個鹼基突變的模型,然後考慮時間問題,意思就是比如假設這兩條序列進化的時間很短,那麼它們其中一個是由另一個直接突變而來的概率就比較大,也就是說它們更有可能親緣關係很近,但如果它們的進化時間非常長,那麼情況就複雜得多,因為有可能不只發生了一次突變,甚至它們有可能是由兩條不相關的序列分別突變而來,也就是說它們的親緣關係不見得很近。

所以在這類樹上所體現的並非只是相似度,而每一條枝長實際上是突變速率與時間的乘積。當模型進一步複雜化,考慮DNA突變的不同方式,點突變,重組,水平基因轉移等等,不同進化機制,如有無選擇壓力,再考慮到空間分布,區域隔離等等因素後,所獲得的信息就更加豐富多樣。

1.推測進化模型

比如從進化樹拓撲結構和枝長中推測背後的進化機制,比如這篇文章里提出在不同的模型下(主要是針對流行性疾病),會觀察到不同的進化樹結構[1]:

具體例如在持續的強免疫選擇壓力下(第一列),進化樹會展現出強烈的不平衡梯狀結構,如群體中人類流感病毒A:

而如果在免疫選擇壓力比較小的情況下(第二列),進化樹就會顯示出比較平衡的結構,如群體中HCV病毒:

而此時該種群的生長曲線是穩定型還是指數增長型會決定進化樹上端點枝長和內部枝長的比值(第二列上下兩種)。

2.預測

模型體現的是機制,機制清楚了,最重要的用處之一就是預測。比如有篇文章里作者通過關鍵位點的突變情況預測與未來病毒分枝最相近的是哪一株[2],作者從1993-1994年的進化樹(左)上推測出的A/ShangA/Shangdong/5/94,在1997年的進化樹(右)上可以看出,它位於Node12的基部,即新發展的病毒分枝確實與它最接近。

當然,實際生物分子進化的情況非常複雜,大部分模型仍然過於簡單,以我們目前的了解來說,僅有在有限的時間尺度下,有限的基因組複雜度(單倍型),相對簡單的突變機制(較少重組,水平基因轉移等)的情況下,才有進行預測的價值。這也是為什麼在流行病學中可以使用進化樹進行預測,而往往在其它大尺度的進化分析中,僅能做到描述。

3.輔助葯靶篩選疫苗開發

進化樹可以輔助葯靶設計和疫苗開發,比如找一些比較保守的位點以追求廣譜性啥的[3-5]。不過這一類多數是輔助作用,還需要依靠其它研究方法,圖也不夠美貌,略過先。

4.生態保護

比如有分析了下澳大利亞整體的生物多樣性熱點在哪裡,可以指導生態保護區選址[6]:

5.腦洞之回到過去

由於有時間信息,另一個酷炫玩法是直接重建祖先,連侏羅紀公園裡的蚊子血都不用。。。當然以目前的研究能力來看,重建個祖先蛋白啊,頂多病毒什麼的還比較有可能,複雜的個體還是處理不了的,但是腦洞可以有!

比如這篇就重建了珊瑚中的色素祖先蛋白[7],通過分析祖先蛋白對紅/綠光的吸收情況來反推紅色熒光蛋白是否為趨同進化,結論是確實如此,他們甚至拿轉了這幾個蛋白的菌直接畫了棵進化樹,這個B格可以給滿分

這種思路還被建議說某種程度上可以用來打臉智能設計論[8],分分鐘把進化過程演示給你看。。。

6.移植譜系發育分析的方法到其它非生物類的對象上,也能有很多有趣的結論

社會學:比如這篇用了一組紐西蘭南島若干部落人牲行為和社會分層的數據,表示我們發現人牲行為在社會層級出現後有穩定社會分層的作用,以及在一定程度上推動社會往社會階級更嚴格的方向發展[9]:

語言學:比如這2篇用進化樹分析了下印歐語系的起源問題,追溯起源時間,支持Anatolia起源假說,認為印歐語系是公元前8000-9500年從Anatolia隨農業發展傳播出去的[10, 11]:

法律:比如這篇研究了下美國反進化論相關法案的進化過程,給65部法案建樹[12]:

搬不動了,就這樣吧,總之還是有很多坑可以挖的!

------------------------------

1. Grenfell BT, Pybus OG, Gog JR, Wood JL, Daly JM, Mumford JA, Holmes EC: Unifying the epidemiological and evolutionary dynamics of pathogens. science 2004, 303(5656):327-332.

2. Bush RM, Bender CA, Subbarao K, Cox NJ, Fitch WM: Predicting the evolution of human influenza A. Science 1999, 286(5446):1921-1925.

3. Nickle DC, Jensen MA, Gottlieb GS, Shriner D, Learn GH, Rodrigo AG, Mullins JI: Consensus and ancestral state HIV vaccines. Science (New York, NY) 2003, 299(5612):1515.

4. Rolland M, Edlefsen PT, Larsen BB, Tovanabutra S, Sanders-Buell E, Hertz T, Carrico C, Menis S, Magaret CA, Ahmed H: Increased HIV-1 vaccine efficacy against viruses with genetic signatures in Env V2. Nature 2012, 490(7420):417-420.

5. Searls DB: Pharmacophylogenomics: genes, evolution and drug targets. Nature Reviews Drug Discovery 2003, 2(8):613-623.

6. Mishler BD, Knerr N, González-Orozco CE, Thornhill AH, Laffan SW, Miller JT: Phylogenetic measures of biodiversity and neo-and paleo-endemism in Australian Acacia. Nature communications 2014, 5.

7. Ugalde JA, Chang BS, Matz MV: Evolution of coral pigments recreated. Science 2004, 305(5689):1433-1433.

8. Pallen MJ, Matzke NJ: From The Origin of Species to the origin of bacterial flagella. Nature Reviews Microbiology 2006, 4(1):784-790.

9. Watts J, Sheehan O, Atkinson QD, Bulbulia J, Gray RD: Ritual human sacrifice promoted and sustained the evolution of stratified societies. Nature 2016, 532(7598):228-231.

10. Gray RD, Atkinson QD: Language-tree divergence times support the Anatolian theory of Indo-European origin. Nature 2003, 426(6965):435-439.

11. Bouckaert R, Lemey P, Dunn M, Greenhill SJ, Alekseyenko AV, Drummond AJ, Gray RD, Suchard MA, Atkinson QD: Mapping the origins and expansion of the Indo-European language family. Science 2012, 337(6097):957-960.

12. Matzke NJ, Matzke NJ: The evolution of antievolution policies after Kitzmiller v. Dover. Science 2015:aad4057.


1、重要的是看看功能方面的保守性和分化,越相似的基因,功能,調控等方面相似性就很高,反之亦然。所以如果你想找到一些很特別很酷的基因,看看樹也許有幫助;

2、可以猜猜基因的起源與進化路徑;

3、可以把樹做的很酷,顯擺顯擺。


進化樹中的高位類指的是較為原始的類群嗎?


推薦閱讀:

如果把人類的所有功能動作都用程序編寫出來,要多少容量?
機器學習跨領域到生物信息學怎麼樣?
螞蟻是由蜜蜂進化來的么?
如何保證轉基因作物的新基因片段的啟動轉錄表達及與宿主其他基因蛋白等交互作用不會產生非預期的物質和變化?
以前聽說21世紀是生物學的世紀,但是那得是後半葉。生物學研究到什麼樣的程度能說它的世紀到來了呢?

TAG:演算法 | 進化 | 遺傳學 | 生物學 | 生物信息學 |