為什麼同一個物種的基因組裡,有的基因序列進化快,有的則進化慢?


第一次自問自答,希望跟各位分享和討論自己一段時間以來的研究。20150613更新完成,我希望盡量寫得簡單易懂一些,好讓更多人了解相關的研究(說實話,偏理論的基礎的生物學研究是比較冷門的,不論是招生,拿經費,或者公眾關心的程度),所以如果我哪裡寫得邏輯混亂,還請指出,我盡量改進。本文內容主要來自最後面一篇參考文獻。

我下面的答案只是針對蛋白質序列,而不是核酸序列。另外,進化速率不等於突變率,突變發生之後還要經過自然選擇才能最後被保留下來,所以突變率高的基因不一定進化速率高。

1.為什麼要研究這個問題:

自有測序技術以來,人們就發現,同一個物種里的不同基因的進化速率差異很大。進化最快和進化最慢的基因,其進化速率可以有上千倍的差異。換句話說,進化最快的基因裡面發生了1000次氨基酸的替換,最慢的基因才發生了一次替換。人們在嘗試解釋這個現象的時候,一般都會先入為主地認為,越"重要"(Functional Importance),或者說功能上受到「約束」(Functional Constraint)越大的基因,進化應該越慢。但究竟基因的"重要性"/"功能約束"實際上是什麼,如何定義,如何測量,都沒有人知道。結果人們都是反過來運用這個觀點,即:序列越保守的基因,其產物對生物的重要性越大。儘管這種做法有一定實用價值,但是卻無益於人們更深入地了解什麼是基因的「重要性」/"功能約束"。要理解基因功能的"重要性"/"功能約束"的本質是什麼,其中一個途徑就是通過研究這個問題來提供相關的線索。這裡需要提一句,功能重要性"Functional Importance"和功能約束"Functional Constraint"實際上是不一樣的,下面會講到它們之間的區別。

另一方面,對蛋白質進化速率的研究至少還有兩個重要價值。首先,它催生了分子鐘理論(Molecular Clock),為確定沒有化石證據的生物存在的地質年代,提供了重要的技術手段。其次,它是分子進化的中性理論(Neutral Theory)的基礎,而中性理論是達爾文進化論提出以後最重要的改進。

2.早期研究-基因的功能重要性(Functional Importance):

從上面提到的那個邏輯(序列越保守的基因,其產物對生物的重要性越大)出發,人們考慮的影響基因進化速率的主要因素就是基因的功能重要性。這個觀點最早可以追溯到Kimura and Ohta的一篇經典論文[1]。文中的原話是「functionally less important molecules or parts of a molecule evolve faster than more important ones」,即功能上較不重要的分子或分子片段,比起功能上較重要的那些,進化得更快。但是,此文作者並沒有仔細區分功能重要性(Functional Importance)和功能約束(Functional Constraint)。

Wilson et al.[2] 第一次明確區分了兩者,他的文章指出,基因功能的重要性應該定義為一個基因被敲除之後,生物生存能力(Fitness)下降的程度。換句話說,缺了這個基因,生物生存能力下降越多,這個基因就越重要(因此也被稱為Protein Dispensibility)。另一方面,基因受到的功能約束應該定義為,基因序列上所有可能發生的突變中,會導致生物生存能力下降的那些突變所佔的比例,即有害突變的比例。一個基因上面有害突變的比例越高,其受到的功能約束越大。Wilson的文章認為,Kimura和Ohta文章中的表述,應該更精確地描述為:如果兩個基因受到的功能約束一樣,則它們中功能重要性高的那個,進化會較慢。

很長一段時間裡,上面的理論都沒有合適的數據用於驗證。直到基因敲除實驗慢慢變得普遍起來。Hurst and Smith[3]首先以此為基礎檢驗了進化速率與基因功能重要性是否相關。他們根據基因敲除的結果把175個小鼠基因分為必需基因(Essential Gene)和非必需基因(Non-essential Gene)兩類。必需基因是指敲除之後會引起小鼠死亡或不育的那些基因,餘下的基因都是非必需的。他們還用dN/dS(參照本題下 @杜康 的答案為什麼同一個物種的基因組裡,有的基因序列進化快,有的則進化慢? - 知乎用戶的回答)估算了基因進化速率。根據上述理論,必須基因的進化應該更慢。但他們發現,數據並不支持上述理論。

後來,有人把酵母基因組裡面每個基因都單獨敲除了一遍,因此得到了每個基因的功能重要性,人們把它跟基因的進化速率比較,發現確實功能重要性越大的基因,進化越慢,但兩者的相關性並不強[4]。另一方面,隨著基因晶元技術的發展,在比較偶然的情況下,人們發現基因的表達量居然跟其進化速率有很強的相關性[5],更重要的是,如果只考慮基因表達量類似的基因,功能重要性與進化速率的相關性就消失了[6]。總結這一階段的研究,人們發現,基因功能的重要性對進化速率的影響並不大

3. 基因表達量越高,進化越慢

上一部分已經提到,基因表達量與蛋白質進化速率的相關性很高,而且這個相關性在各種生物裡面都能觀察到:(下圖侵刪)

圖中x軸是基因表達量,y軸是蛋白質進化速率,每個小圖上沿標示了物種的種名。圖上每個點是該物種里的一個基因,點密度太大,畫不下的地方用色階(藍色到紅色,紅色為密度最高)表示。圖上還標示了X-Y的Spearman相關性係數。

根據前面提到的理論和結果,既然基因功能的重要性對進化速率沒什麼影響,那麼基因進化速率的快慢就應該由它受到的功能約束的大小所決定了。而基因表達量與進化速率的相關性說明,表達量至少是能比較準確地反映基因受到的功能約束大小的。那麼下面問題就來了(居然用了這個句式……),為什麼表達高,功能約束就大呢?

為了解釋這個現象,Drummond等人[7]在2005年提出了翻譯穩健性(Translational Robustness)假說。該假說指出,任何mRNA翻譯都有一定概率發生翻譯錯誤,包含翻譯錯誤的蛋白質尤其容易發生誤摺疊,而誤摺疊的蛋白質對細胞具有毒性。顯然,高表達的基因能產生特別多的包含翻譯錯誤的分子。為了降低下游的誤摺疊分子的產生負面作用,高表達基因的序列必須降低翻譯錯誤率,並且是即使包含翻譯錯誤,也不太容易發生誤摺疊。為了使序列滿足這個要求,高表達基因在進化上受到很大的限制,因此進化速率較低。後來,Yang等人[8]指出,即使是不包含翻譯錯誤的蛋白質也會產生誤摺疊,並因此把翻譯穩健性假說推廣為更普遍的避免誤摺疊假說(Misfolding Avoidance),即:高表達基因由於產生的蛋白質分子更多,其中發生誤摺疊的分子也更多,為了避免誤摺疊分子對細胞的負面作用,高表達基因的蛋白質序列在進化上受到更大的限制(發生誤摺疊的概率比低表達基因更低),因此進化很慢。

另一方面,因為蛋白質的摺疊一般只受蛋白質內部,而不是表面的氨基酸的影響,因此避免誤摺疊假說無法解釋高表達基因表面氨基酸進化也較慢的現象。為此,Yang等人[9]又提出了避免誤結合假說。高表達基因由於分子數多,很可能參與無功能甚至有毒性的誤結合(misinteraction)。因此,高表達的蛋白質表面,傾向於使用不容易和其他蛋白結合的氨基酸,而低表達的基因則沒有這個限制,從而導致高表達基因進化更慢。(參見我回答另一個問題的最後一段:為什麼各式各樣的蛋白質在細胞里不會擁擠打亂? - Philip Yang 的回答)

再後來,有人發現基因的表達量越高,其mRNA的二級結構越穩定[10]。換句話說,高表達的基因序列對mRNA二級結構有額外的要求,從而導致了RNA序列和蛋白質序列在進化上受到更大的限制,因此進化更慢。至於為什麼表達越高,mRNA二級結構越穩定,個人認為跟翻譯準確率有關。這個問題也很大(其實就是問mRNA的二級結構有什麼功能),就不展開了。

總結這一部分,高表達基因進化更慢的原因至少有三個避免蛋白質誤摺疊避免蛋白質誤結合mRNA二級結構穩定性

4.其它影響蛋白質進化速率的因素

如上面的圖所示,儘管基因表達量與蛋白質序列進化速率的相關性很強,它還不能100%地解釋不同基因進化速率之間的差異。這說明進化速率還受到其他因素的影響。現在也已經發現很多其他影響蛋白質進化速率的因子,雖然它們的作用不如基因表達量大,其作用機制也不太明確。以下簡要地談幾個。這裡只是為求描述得更全面一些,我對這些因素的研究並不深,如有偏頗,還望知友指正。

a.正選擇(Positive Selection)

某些基因由於受到外部因素的影響(例如免疫系統相關基因為了「追上」病原體的進化速率,也會進化得特別快),其進化速率比中性進化還快(參照本題下 @杜康 的答案為什麼同一個物種的基因組裡,有的基因序列進化快,有的則進化慢? - 知乎用戶的回答)。但這種基因所佔比例在基因組裡面很小。因此,進化速率的快慢更多的還是由負選擇(Negative/Purifying Selection)/功能約束的大小決定的。

b.一因多效(Pleiotropy)

一個基因(或者突變)如果可以影響多於一個性狀,那麼這個基因(突變)就是「一因多效」的。有理論認為,基因Pleiotropy的程度越高(能影響更多的性狀)那麼它應該進化越慢。衡量Pleiotropy程度的方法有幾個,例如蛋白質在蛋白-蛋白相互作用網路中的連接度,還有基因受多少個miRNA調節。

c.表達廣度(Expression Breadth)

對於有組織分化的多細胞動物而言,多數基因並不會在所有組織裡面都有表達。基因表達可以有非常高的組織特異性(Expression Specificity,例如只在神經細胞裡面表達),也可以有非常高的表達廣度(Expression Breadth,例如所有組織裡面都有表達)。如果基因的表達廣度越高,它進化就越慢。

d.特定發育階段的表達量

研究發育的學者有所謂的沙漏模型:在發育早期和晚期表達的基因一般都不太保守,而在發育中期表達的基因卻傾向於是比較保守的基因,說明這些基因在進化上受到很大的限制——形象地說就像一個沙漏:兩頭寬,中間窄。

還有很多,不能盡錄,很多也沒辦法一兩句話講清楚,請參考[11]。

5. 給基因功能和生物醫學帶來的新認識

從所謂基因功能重要性,到基因受到的功能約束,以及基因表達量影響基因進化速率的各種分子機制/理論,我們對基因的」功能「有了更深入的認識。過去,研究一個基因一般是研究它(在正常或者病變的條件下)絕大多數時候在做什麼。而上面提到的研究表明,基因發生各種隨機錯誤(例如誤摺疊和誤結合)所帶來的負面影響,同樣也有的分子功能/生物醫學上的重要意義。這裡要特彆強調錯誤是「隨機「的,因為它跟過去的常常提到的疾病相關基因發生"Gain-of-Function"的突變,還有點不一樣——"Gain-of-Function"一般有明確的特定的"Function",例如錯誤激活了下游的特定分子。但是上面提到的誤摺疊/誤結合則不同,它們是隨機錯誤,沒有特定的錯法。這也算是從基因組/系統生物學角度考察過去的一些老問題得到的新認識。

參考文獻:

[1] Kimura, M. Ohta, T. On some principles governing molecular evolution. Proc. Natl Acad. Sci. USA 71, 2848–2852 (1974).

[2] Wilson, A. C., Carlson, S. S. White, T. J. Biochemical evolution. Annu. Rev. Biochem. 46, 573–639 (1977).

[3] Hurst, L. D. Smith, N. G. Do essential genes evolve slowly? Curr. Biol. 9, 747–750 (1999)

[4] Hirsh, A. E. Fraser, H. B. Protein dispensability and rate of evolution. Nature 411, 1046–1049 (2001).

[5] Pal, C., Papp, B. Hurst, L. D. Highly expressed genes in yeast evolve slowly. Genetics 158, 927–931(2001).

[6] Pal, C., Papp, B. Hurst, L. D. Genomic function: rate of evolution and gene dispensability. Nature 421, 496–497 (2003).

[7] Drummond, D. A., Bloom, J. D., Adami, C., Wilke, C. O. Arnold, F. H. Why highly expressed proteins evolve slowly. Proc. Natl Acad. Sci. USA 102, 14338–14343 (2005).

[8] Yang, J. R., Zhuang, S. M. Zhang, J. Impact of translational error-induced and error-free misfolding on the rate of protein evolution. Mol. Syst. Biol. 6, 421 (2010).

[9] Yang, J. R., Zhuang, S. M. Zhang, J. Impact of translational error-induced and error-free misfolding on the rate of protein evolution. Mol. Syst. Biol. 6, 421 (2010).

[10] Zur, H. Tuller, T. Strong association between mRNA folding strength and protein abundance in S. cerevisiae. EMBO Rep. 13, 272–277 (2012).

[11] Correlates of the protein evolutionary rate : Determinants of the rate of protein sequence evolution : Nature Reviews Genetics : Nature Publishing Group


謝邀。不過我沒能力回答你邀請的這個問題。進化這塊看過的paper太少。

我只是有觀察到過這個現象,但並不清楚原因。比如目前並不清楚確切功能的至少數十個鋅指蛋白,僅僅在高等靈長類里突然進化出了超長的3"UTR,而且掃過其上的一些miRNA位點,觀察其分布的話,大都是些編號序數較大的miRNA家族,可能預示著這些UTR,與對應新miRNA家族有著協同進化關係。


dN/dS ratio 這個指標似乎可以用來衡量基因進化的快慢, 其中 dN 衡量這條蛋白質序列異義突變積累的速率,dS則衡量同義突變積累的速率,象徵中性突變。

最早的關於這個ratio的使用在於將之於1比較。如果dN/dS &<1, 說明這條基因被自然選擇的壓力轄持 (purifying selection),中性突變在異義位點上的作用被限制,也就是突變者則通過物種死亡或者繁殖率降低的方式被剔除了種群,側面反映這條基因的功能重要性。

如果dN/dS &>1, 則中性突變不足以解釋高於dS的dN, 一般傾向於認為這條基因受到自然選擇的壓力(保持不變的都被剔除了,positive selection)。側面反映這條基因在物種適應新環境時的重要作用。

然而不知道大神所指的基因的進化快慢是指什麼?不知道是哪篇文獻給樓主帶來這樣的思考?

-----------------------------------------------------------------------------------------

就氨基酸序列的替換速率來說,只有密碼子的異義突變才會導致氨基酸的更換。目前認為影響之的原因很多,然而大多將中性突變作為null expection,如前面所說的dN/dS 衡量體系,認為中性突變所不能解釋的部分是受到自然選擇壓力的作用(purifying or positive)。

然而如今也有學者認為,BGC (biased gene conversion) 也會導致輕微有害突變(異義突變,或者說是氨基酸層面上的突變)的積累 (Romiguier et al. 2010)。

而同時,亦有文章指出物種metabolic rate, generation time 以及 effective population size 等也會影響到 substitution rate (Welch et al. 2008)。

所以以我有限的智商接觸這樣一個非教科書式的現實理論世界,貧僧還是十分暈神的。


不同基因選擇壓力不同


簡單來說,越基礎的基因變動越慢。比如調節生長時對稱性的基因,在哺乳動物中都是非常相似的。一般隨便改一改都足以殺死這個生物,死在娘胎里,甚至不能走到物競天擇這一步。

那些不至於性命攸關的改變,就要看環境的壓力和突變能產生的優勢了。如果物種處在一個艱難的時期,數量較少而某個優秀的突變能獲得足夠的優勢,它會散播得很快。


基因突變的概率和基因突變後被保存的概率應該被分開討論


先Mark上完課後試試答下。我是學分子的


一言以蔽之曰,選擇壓力不同。


推薦閱讀:

本人普通一本生物製藥,實在沒有做實驗的天賦,想考生物信息研究生,不知生信工作適合女生不,求業內人建議?
從事生物信息學科研,需要學習哪些cs知識,語言和技能? 系統生物學是什麼,和生信什麼關係?
學習生物信息學需要數學和計算機達到什麼程度?
自學生物信息學是種怎樣的體驗?
GWAS研究中樣本數量和結果真實有效性之間的關係是怎樣的?

TAG:進化論 | 生物學 | 生物信息學 |