人類基因組簡史
作者:Michael Le Page
GTGCCAGCAGCCGCGGTAATTCCAGCTCCAATA GCGTATATTAAAGTTGCTGCAGTTAAAAAG 儘管如天書一般難解,這段DNA(脫氧核糖核酸)序列絕不一般。在你的細胞、你家裡的喵星人或汪星人、餐盤中的魚、花園裡的蜜蜂與蝴蝶,以及腹中的細菌里,都有它的身影。實際上,從深海沸騰的火山口到高空雲層凍結的細菌,哪兒有生命,哪兒就有它。你甚至可以在如巨型病毒(mimiviruses)這樣嚴格意義上算不上「活的」的東西里找到它。 這段序列之所以如此普遍,是因為它演化自所有生物的共同祖先。而且,由於它控制著一個至關重要的過程(詳見後文),自誕生之日起就幾乎沒有改變過。換句話說,你身體里的部分DNA有著難以置信的30億年的歷史,到你這兒已未曾中斷地傳遞了萬億代。 你還有一些DNA是全新的。你的基因組裡大約有100個你的父母所沒有的突變,小至一兩個鹼基字母的變化,大至一整段DNA的獲得或遺失。 通過比較基因組,我們可以知道哪些DNA(片段)是「新」的,哪些是「舊」的。例如,對比你與你的兄妹的基因組可以令新增突變現身。比較人類與其他動物的基因組,則會揭露出那些更為久遠的變化。 所以,我們的基因組不僅是造人的藍圖,還是活生生的歷史記錄。由於我們的基因組如此浩瀚 —— 由超過60億個鹼基字母組成 —— 寫成書摞起來可達十米高 —— 它們極其詳細地記錄了我們的過去,使我們得以探尋從生命起源到此時此刻這一路上的演化歷程。 雖然對這些記錄的破譯才剛剛開始,我們已經發現,我們的祖先面對的不只是這個充滿「血淋淋的牙齒和爪子」【1】的世界裡嚴酷的生存競爭;在我們的基因組裡,那兒也進行著史詩般的戰役。這些戰役徹底改變了我們基因組的運作方式,並最終造就了今日的我們。 普遍祖先【2】 太初有RNA(核糖核酸)。這種「多才多藝」的分子可以儲存遺傳信息,還能催化化學反應 —— 這意味著有些RNA擁有自我複製的能力。當一個或一組RNA分子開始自我複製,最早的基因組就此誕生。【繼續閱讀:科學松鼠會 -生命起源:尋找第一個自我複製者】 RNA的缺點在於它並不那麼穩定,所以很早開始,生物就轉向使用另一種分子來儲存遺傳信息。它與RNA分子在化學結構上主鏈稍有不同,卻不那麼容易被分解 —— 這種分子就是DNA。至於(RNA在)催化上的作用,也由蛋白質(酶)取而代之,使RNA被降格到一種中間角色(a go-between)。用來製造蛋白質的藍圖儲存在DNA中,以RNA副本(RNA copies, 這裡指信使RNAmRNA- 譯註)的形式發送給蛋白質工廠(指核糖體Ribosome- 譯註)。 我們的基因組裡仍存有許多來自那久遠的,RNA仍佔主導地位的世界的遺迹。舉例來說,這篇文章開頭那段無所不在的序列,就是用於編碼一種RNA酶的一部分,這種酶知道現在還在蛋白質的合成過程中扮演重要角色。 最遲大約35億年前,擁有能製造RNA和蛋白質的基因組的生物已經出現,這也是(地球上)所有生物的最近共同祖先。我們確信至少有100個基因可以追溯至LUCA(LUCA,即 Last Universal Common Ancestor,最近共同祖先),來自馬里蘭州貝塞斯達美國國家衛生研究院(the National Institutes of Healthin Bethesda, Maryland)的尤金·庫寧(Eugene Koonin)說道。他主要研究生物演化,並表示LUCA擁有的基因可能總計超過1000個。 LUCA的很多核心構建,包括用於製造蛋白質的那些,在如今所有生物體內仍能找到。雖然它和我們現在所熟知的生命形式或許不大相似。一些研究者認為,LUCA不是一個獨立的、被一層膜包裹著的細胞,而是一種由病毒似的東西組成的混合物,在類似鹼性海底熱泉(alkaline hydrothermal vents)的微孔這樣的非生物空間里進行自我複製【3】。 分歧與重聚 下一階段里極有可能的一幕是,LUCA病毒似的組成部件中,有一部分在兩個不同時刻「掙脫」出來,獲得了細胞膜,並成為簡單細胞。這解釋了為何存在兩種其細胞膜完全不同的簡單細胞【4】—— 細菌(bacteria)和古菌(或古核生物archaea)。「這是個很吸引人的假說,」 庫寧表示。可以確定,在很早開始,生命就已分入兩個主要支系。 細菌和原始細菌演化出不少令人驚嘆的分子機械,並改造了地球(它們使地球大氣穩定,製造氧氣,使更複雜的生命形式成為可能 - 譯註【5】)。但是,一直以來,它們都不比一小堆化學分子複雜多少。直到一次特別事件將這兩大生命分支重新聯合,才使複雜細胞,或真核生物(eukaryotes)出現 —— 這個事件令基因組徹底改觀,為隨後最早的動物的誕生鋪平了道路。 約10億年前,一隻細菌莫名進入一隻古菌的內部。它們非但沒有互相殺害,反而形成了一種共生關係(symbiotic relationship)。那隻細菌的後代漸漸承擔起一項重任:它們成為線粒體(mitochondria)—— 細胞內部的發電廠 —— 為我們供給能量。 若非這次聯姻,複雜的生命形式或許永遠也不會出現。我們往往假定,簡單生物自然會朝著複雜化的方向演變。但是,單個細菌或古菌卻從未超過特定的複雜程度,這又是為什麼? 倫敦大學學院(University College London)的尼克·萊恩(Nick Lane)認為,這是由於因為它們撞上了能量壁壘(energy barrier)。所有的簡單生物都通過它們的細胞膜產生能量,當它們體積增大,表面積與體積比隨之減小,就愈發難以產生足夠的能量。結果,這些簡單細胞無法變大,也就沒有足夠空間容納較大的基因組。作為模塊式的、自成一體的能量源,線粒體將這個能量壁壘移除。那麼,只需製造更多的線粒體,細胞就能持續增大體積,使擴大基因組、增加信息存儲容量,成為可能。 除了將細胞從能量上的束縛中解放,線粒體的細菌祖先還是我們至多四分之三的基因的來源。這個細菌一開始可能有約3000個基因,隨著時間進程,有些丟失了,有些則轉移到主基因組(main genome)中。因此,現在的線粒體里只剩有少量基因。 看上去儘管益處頗多,這個聯盟的締結實則暗藏危機。尤其是:原始線粒體的基因組感染有部分寄生DNA(parasitic DNA)——也稱轉座子(Transposon)。它們除自我複製沒有任何實際作用。它們有時會處在基因的中間,交給它們大片的無關DNA —— 即我們所熟知的內含子(intron)【5】。這就好比在做蛋糕的配方里塞進一張煲湯秘籍。 儘管如此,後果也並不一定是災難性的,因為這些內含子能「自身剪接」("self-splicing"圖示):在一個基因的RNA副本被製造出來後 —— 這是製造蛋白質的第一步 —— 它們將自己切去(they cut themselves out)。然而,這不會每次都發生,所以這些內含子總有不利之處。大多數細菌的基因里沒有內含子,因為它們數量巨大,個體之間競爭激烈,強力的自然選擇將內含子掃除殆盡。但是,早期真核生物種群很小,自然選擇的效力要微弱得多。這些隨線粒體的祖先一併到來的「寄生基因」瘋狂複製,使數百個內含子夾雜進主基因組裡。 今天,我們每一個基因里一般有八個內含子,它們中的許多都可以追溯到最初的那隻真核細胞 —— 我們的祖先從未完全擺脫它們。不過,它們也演化出一些對付內含子的手段,隨之改變了我們的基因構造和細胞繁殖的途徑。其中之一就是 —— 性。 「性」的益處 性(sex)的重要之處並不僅僅在於使不同個體的基因相混合,還在於其將不同譜系裡的「演化成果」合併。一直以來,簡單細胞都在進行著基因的交換,完全不必依靠「性」的幫助。(見Bacterial conjugation- 譯註) 這個過程(性)也被稱為重組(recombination):一對染色體(chromosome)在被分入精子細胞或卵子細胞前會交換相應DNA片段 (見減數分裂,Meiosis- 譯註)。我們的基因組由許多個基因相連接而成,好像一粒粒珠子串成一束項鏈。重組可以幫助解決這種基因組的一個根深蒂固的問題。 設想有一串項鏈,其中一顆珍珠光彩奪目,緊挨著它的一顆卻有瑕疵。如果你沒法換掉這顆有瑕疵的珍珠,就只好要麼放棄整串項鏈。要麼就這樣勉強接受。與之類似,如果一個有益突變恰好與一個有害突變相鄰,那麼,要麼有益突變會(因為有害突變而)消失,要麼有害突變被他的鄰居拖挾著擴散至整個種群。 重組使我們有了「交換珍珠」的可能。正如你能製作一串完美的和一串有瑕疵的項鏈,有些後代會遺傳有更多「好基因」,有些則「壞基因」(因為有暗中添亂的內含子)更多。不那麼走運的個體更容易死亡,那些擁有較好基因的則繁衍興旺。 在大種群里,突變的數量巨大,有些突變能抵消有害基因的負作用,所以沒有必要求諸重組。但是,在小種群里,性最終獲得成功。這也是為什麼有性生殖成為最初的真核細胞和它的大多後裔的常態。所以,下次做愛時,記得感謝你遠古細菌祖先體內的寄生基因。全因有它,我們才得以享受性愛的樂趣。 性姍姍來遲,內含子的數量已經太多,無法完全擺脫它們。所以,早期真核生物很快有了另一個嚴重危機:隨著內含子積累的突變越來越多,「自身剪接」機制逐漸失效。為應對這個問題,早期真核生物演化出一種被稱為剪接體(spliceosome)的特殊裝置 —— 它能切除基因的RNA副本中的內含子。 剪接體是一個不由大腦(在演化中往往如此)的解決方案:切掉基因RNA副本中的垃圾(內含子),而不是直接從DNA中切除,效率實在不高。不僅如此,剪接體還行動緩慢。許多RNA在被切掉內含子之前就已抵達蛋白質工廠,導致有缺陷的蛋白質被製造出來。 這也是細胞核出現的原因,庫寧提議。一旦細胞的DNA被包裹在一個與蛋白質工廠相分隔的空間里,這樣只有經過剪接的RNA才獲准離開(細胞核),從而避免細胞製造無用蛋白質,浪費能量。 即使是這樣,問題也沒有得到徹底解決。剪接體經常把基因里被稱為外顯子(exon)的遺傳編碼部分也錯誤地切除,導致變異蛋白質出現。「選擇性剪接(alternative splicing)不是適應性變化(adaptation)的結果」,庫寧說。「它是生物不得不勉強忍耐的東西。」 於是,我們的祖先演化出一層又一層的複雜機制來對付內含子的擴散繁殖,卻仍然沒能完全解決它們所帶來的問題。不過,與簡單細胞不同,由於能量供給無虞,我們的祖先能夠負擔這種浪費 —— 而且從長遠看來,這額外的複雜性反而帶來了新的契機。 多功能與調控 事實上,內含子與外顯子的存在使基因模塊化。在一個連續不間斷的基因里,如果發生DNA片段增減這樣的突變,其餘基因的表達也受到影響,產生些莫名其妙的東西。相反,外顯子可以隨意移動(即外顯子改組exon shuffling- 譯註)不用擔心擾亂基因的其它部分。於是,基因可以以在自己內部或彼此間轉移、交換外顯子的方式演化了。 舉個例子,假設一個隨機突變使一個基因里被插入一個額外的外顯子。因為選擇性剪接的作用,原來的蛋白質仍然可以被製造出來。不過,這也意味著,由這同一個基因也製造出新的蛋白質(如下圖)。這個突變或許影響甚微,不會被自然選擇剔除,但是長此以往,這些變異蛋白質有機會發展出新的功能或用途。純屬意外,真核細胞為對付內含子的無腦行動使基因更加多功能化,演化力更強(more versatile andmore evolvable)。如果這個關於複雜細胞演化的觀點正確,我們基因組中的許多關鍵特徵,從基因的模塊化到性,都是最初獲得了含有寄生基因的線粒體的直接結果。當然我們也不能排除其他可能,但是沒有一個能(像這個假說一樣)提供如此完美的解釋。「這是我最偏愛的情景,」庫寧說。 所有這些不尋常的特性使大量演化革新噴涌而出,真核生物發榮滋長,不久便多樣化起來。即便如此,它們仍然面臨著新的寄生DNA和病毒持續不斷的無情侵犯和攻擊。不過,在超越了簡單細胞的大小限制後,這些複雜細胞可以不受約束地演化出更為複雜的防禦機制。 其中之一,是在DNA上加入標籤來阻止RNA副本的複製,從而將轉座子的寄生基因「沉默」 —— 這個過程被稱為「甲基化」(methylation)【繼續閱讀:果殼 -衰老如何改變我們的基因】。另一種方法是通過破壞入侵病毒的RNA來遏制它們的自我複製。這些防禦只能說是稍有成效:如今,人類基因組裡大約有百分之五由已變異的、失去活性的病毒基因殘餘組成,以及驚人的百分之五十由轉座子的遺迹組成 —— 這也是寄生DNA不時以各種方式進入我們祖先的基因組並泛濫成災的無聲的證據。 這些防禦機制很快被轉向另一個用途:控制細胞本身基因的活性。「用於控制轉座子的機制變成了調控基因的機制,」加拿大圭爾夫大學(University of Guelph)的賴安·格雷戈里(Ryan Gregory)說道。他主要研究基因組的演化。 構建軀體 為迎接演化史上下一大步的到來,舞台已搭建完畢。這是在大約八億年前,細胞比之前任何時候都更加多得互相協作。雖然少數細菌已經成為多細胞,它們在複雜程度上的限制使它們無法沿著這條路繼續走下去。相形之下,真核生物已經前後十多次演化出多細胞性,導致大量複雜生物,如真菌,海藻、陸生植物和動物(當然)的誕生。 原因之一是,真核生物的基因本領更大,可以轉向新的用途,如將細胞粘合在一起,或與其他細胞通訊。更加重要的是,它們基因的模塊化特性使它們演化得更快。 比如,將細胞黏在一起的蛋白質一部分跨越細胞膜,一部分向外突出。多虧模塊化的基因,各種形態的突出部分可以附加到跨越細胞膜的那一部分上,好像吸塵器的各種附加裝置。許多與多細胞性相關的關鍵基因都是通過外顯子改組演化而來。 不僅如此,真核生物用來調控基因的複雜機制使細胞得以分化。通過打開或關閉一些基因,不同類別的細胞擔當起不同的角色。由此,生物發展出不同類型的組織,使早期動物得以從海綿狀的生物體演化而來,身體結構也越來越複雜。 下一次大躍進是幾個遺傳上的意外事件的結果。當(細胞)繁殖複製時出了差錯,偶爾整套基因組都會加倍 —— 而這在脊椎動物的祖先身上發生了不止一次。 這些重複基因組帶來不少額外基因副本。其中許多已經遺失了,有些則起了新的作用。尤其是4組發展中控制身體構建的主宰基因(master gene) - Hox基因。通常認為,這些基因在內骨架的演化中扮演了重要角色。【7】 重複整個基因組很罕見,大多數新基因由小範圍的重複,或外顯子改組誕生,有時二者皆有。演化毫無羞恥感 —— 它會充分利用任何DNA。無論它們來自何處,只要有用就行。有些關鍵基因就從垃圾DNA演化而來,有些則是從其他地方獲得。 例如,大約5億年前,我們祖先的基因組被一種叫做hAt轉座子的遺傳寄生蟲入侵。它們採用「剪切粘貼」("cut and paste")的方式自我複製。其中「剪切」由兩種只與特定DNA序列結合的酶完成。 在某一時刻,早期脊椎動物中,與DNA剪切酶相結合的那段序列最後轉移到與識別入侵細菌或病毒有關的基因附近或內部。結果,在生物的一生中,隨著細胞增殖,部分基因被hAT酶切下。值得注意的是,在不同的細胞系(cell line)中,被切下的部分也不同,於是產生許多種變異蛋白質。 有些情況下,這證明是關乎生死的東西,因為變異蛋白質可以更好地附著在入侵病原體上。很快,一種用於辨別那些能產生最有效的變異蛋白質的細胞,並促進它們增殖的機制產生了 —— 這就是適應性免疫系統(adaptive immune system)。如今,人類的免疫系統複雜無比,但是負責切下並重新排列基因 —— 確認入侵者的關鍵過程 —— 的那兩種酶,就是hAT酶的直接後代。所以,我們對付疾病的最有效的武器實際上要歸功於古老的遺傳寄生蟲。人類基因組 配備著這些高級防禦系統以及能夠製造各種身體形態的基因工具箱,早期脊椎動物極其成功。它們佔領海洋,殖民陸地,在樹上攀越,又返回地面,開始以兩足行走。 是什麼讓我們與其他猿類相比如此不同?其中一個明顯區別是:我們有23對染色體,而不像我們的猿類祖先那樣有24對。染色體本質上就是一包包的基因,只要我們所需要的基因仍然完好,無論它們分開還是聚在一起,都沒有太大不同。相反,很有可能是一連串的細小變化逐漸改變了我們的大腦和軀體。一些關鍵的突變已經獲得確認(New Scientist, 9 June, p 34),但可能還有數千個。 回望整個圖景,顯然,細胞與軀體的複雜化始於基因組的複雜化。不過,令人吃驚的是,多數早期複雜性的提高恰是因為選擇壓力的缺失,而不是由其推動。「大多數發生在基因組層面上的活動都是中性的,」格雷戈里說。 換句話說,突變會產生,哪怕它一點兒作用也沒有,重複基因便是一例。在較大的種群里,這樣的突變會很快遺失。但是,在較小的種群里,它們可以以遺傳漂變(genetic drift)的方式隨機傳播。「這是種群遺傳學的必然結果,」庫寧說。只在後來,這些複雜性才受到「選擇」,例如當一個重複基因獲取了新的職能時。 我們的演化史中的許多關鍵事件,比如基因組重複加倍導致Hox基因產生,可能就是小種群中選擇壓力較弱的結果。確實,人類演化初期的種群瓶頸(population bottleneck)或許可以解釋某些將我們與其他猿類區分開來的變異 ——例如我們肌肉力量的弱化 ——的傳播擴散。【繼續閱讀:果殼:人類演化,高潮還在後面】 另一件出人意料的事情是病毒和寄生物的巨大作用。我們的基因組中的許多主要特點,從性到甲基化,都是為對付它們的攻擊演化而來。不僅如此,我們有相當數量的基因和外顯子,例如免疫酶,都直接來源於這些入侵者。「從最初的那一刻起,病毒就已經是細胞生命必不可少的一部分,」庫寧說。 雖然必要,卻並不愉快。我們在演化中付出了巨大代價。人們說歷史由勝利者書寫 —— 那麼,我們的基因組本身就是對勝利的記錄,記錄下那些成功了的,或至少沒有使我們的祖先喪命的試驗。我們是一長列彩票贏家的後代,獎品是生育出能夠活到自己繁育年齡的後代。一路下來,有無數次失敗,數以萬億的動物可怕地死去。 我們的基因組遠遠稱不上精細雕琢而成的完美產物。恰恰相反,它由遺傳意外的殘骸和遠古寄生DNA的遺迹草草修補而成。它產生於相當瘋狂、難以控制的試驗 —— 會被任何學術道德委員會一口拒絕。這個過程延續至今 —— 在任何一家醫院裡,你都能找到死於可怕的遺傳疾病的兒童,不過遠比過去要少。多虧有像胚胎篩查(embryo screening)這樣的技術,我們自己已經開始掌控人類基因組的演化。一個新的時代已經來臨。 邁克爾·佩奇(Michael Le Page)是《新科學家》生物特別報導編輯
非生物專業,有錯誤的地方還請指出。 譯註: 【1】「a harsh struggle for survival in a world red in tooth and claw」,出自英國詩人阿爾弗雷德·丁尼生(Alfred Lord Tennyson 1809–1892)的「In Memoriam A.H.H.」,Canto 56:
Who trusted God was love indeed And love Creation"s final law Tho" Nature, red in tooth and claw With ravine, shriek"d against his creed
【2】「普遍祖先,the universal ancestor 」,與「共同祖先,the common ancestor」 區分; 【3-1】Tia Ghose, Origin of Life: Did a Simple Pump Drive Process? - LiveScience 【3-2】Nick Lane and Michael Le Page, How life evolved: 10 steps to the first cells - New Scientist 【4】「細胞膜不同」 —— 詳見Difference Between Archaea and Bacteria 【5-1】Eubacteria and Archaebacteria: the oldest forms of life 【5-2】Scientific American - The Origin of Oxygen in Earth"s Atmosphere 【6】內含子與轉座子的區別:內含子是真核基因中特定存在的,應該說如果沒有內含子,基因就不能正常表達的,因為一些內含子起著重要的調節作用,比如增強子、沉寂子等等,有一些內含子的功能還在探究中。而轉座子是在原核和真核生物中都存在的,正常狀態是不整合到基因中的,插入正常基因就會出現插入突變,閱讀框改變,最終導致基因無法正常表達而失活。--出處 【7】見《演化》書評:寒武紀物種大爆發和Hox同源框架基因
推薦閱讀:
※癌症患者有救了?看這家公司如何用AI和基因組測序制定治療方案
※生物信息神奇網站系列(十):生物資料庫集合
※人類基因組
※64卦生物組圖,就是人的基因組圖
※東亞最古老的人類基因組被發現,但不是現代東亞人的祖先