人工合成生命的一小步:人工設計和合成最小細菌基因組

2016年,一個研究團隊發表了一篇關於壓縮細菌基因組的文章,被視為繼人工合成(純有機合成,沒有生物過程參與)細菌基因組後,人工合成生命的又一小步。

一、基因組壓縮

1.自然的基因組壓縮過程

為了能夠在環境中持續生長和繁殖,細菌除了維持基本的生命活動,肯定還發生了各種適應性進化。對於在複雜環境下生存的細菌,「適應基因」佔據了它們基因組的主要部分,使得它們的基因組不斷擴張,比如大腸桿菌和枯草芽孢桿菌,它們的基因組約有4000~5000個基因。

但是,對於在簡單環境中的細菌,情況恰好顛倒過來,適應在它們的生命周期里不那麼重要,因此它們就會自發地不斷壓縮自己的基因,降低基因組的大小。最典型的代表就是支原體,專一的寄生環境使得它們在進化中不斷刪減自己的基因組(同時也不斷降低自己的物理大小,支原體是目前已知的最小的獨立代謝細胞)。在1995年,生殖支原體(Mycoplasma genitalium)的全基因組測序完成,結果顯示:它具有525個基因,大約580kbp(bp即base pair,鹼基對)——這在很長時間內保持了人類已知的最小基因組記錄。

2.基因組壓縮的意義

既然基因組可以壓縮,一個很自然的想法就是基因組的壓縮是否存在極限。如果存在,找到這個極限對應的最小基因組就具有非常的意義:它將幫助我們建立一個「純粹的」細胞模型。從這個模型出發,我們能夠更好地理解生命的核心功能,解析生命在最底層的架構上是如何組織的,向人工生命設計和合成邁出一大步。


二、基因組壓縮的技術準備

1.基因可壓縮性的估計:比較基因組中的保守核心

研究者對流感嗜血桿菌(Haemophilus influenza,1825個基因)和生殖支原體(Mycoplasma genitalium,525個基因)進行了比較基因組學分析。分析顯示,二者存在共計約250個同源保守基因。對於遺傳差距如此之大的兩種細菌而言,這些基因都不怎麼發生進化,說明這個保守核心很可能也是生命必要基因的核心(需要特別指出的是,保守基因不等同於必需基因,這個將在後面展開)。

2.基因類型的劃分

一個很樸素的分類方法就是把基因分為必需基因(essential gene)和非必需基因(nonessential gene)。在人工維持的實驗環境(培養基)下,缺失導致死亡的就是必需基因,缺失不致死的就是非必需基因。這種劃分很有效,通過本文介紹的技術也很容易把它們區別開來。早期研究人員就是以這種思路為指導,把所有的非必需基因都敲掉了。但很快他們發現一個問題——菌落長不起來。通過進一步的實驗,他們發現,非必需基因中有很大一類基因,它們的缺失不會導致細胞直接死亡,但卻會造成細胞生長分裂困難。因此,研究人員引入了一個新的概念,准必需基因(quasis-essential gene),用來標記一類維持細胞穩定生長的基因。

准必需基因的存在預示了一個問題:人工壓縮基因組必須要權衡兩個因素:基因組大小和生長速率。我們不計代價地壓縮基因組可能導致細胞無法生長,但如果過多地考慮生長那基因組又可能顯得過於冗餘。

3.如何確定哪些基因是可以刪減的?全域轉座子誘變技術。

要想對基因組進行壓縮,那我們必須知道哪些基因可以刪(非必需基因),哪些基因不能刪(必需基因,部分類必需基因)。這就需要引入一種甄別技術:全域轉座子誘變技術(global transposon mutagenesis)。

· 技術簡介

利用轉座子在基因組上隨機插入的特點,可以打斷或者修飾某個表達基因的功能,誘導突變。相比於傳統的誘變方法(比如X射線誘變、化學誘變),它的優點主要有:(1)突變率更高,致死率更低。(2)可以製造單突變。(3)可包含選擇基因(用來篩選發生了突變的菌株)。(4)可以回復突變。但它的局限還是存在的,比如轉座現象在生物中不太常見(只有真核生物有轉座現象),並且突變仍然比較隨意(在本文中,這種隨機性反而是一種好處)。

· 技術應用思路

對syn1.0進行大量擴增,然後進行全域的轉座子誘變,使得整個基因組被轉座子插得「千瘡百孔」,然後對這些syn1.0進行培養。可以想像,必需基因被插入後細菌必死無疑,而非必需基因被插入後細菌還能在培養基上苟延殘喘。對存活下來的細菌基因組測序,然後與syn1.0進行比較,很容易得到必需基因和非必需基因的區分:「完好無損」的基因肯定是必需基因,「插成篩子」的基因肯定是非必需基因。

· Tn5轉座子系統

很明顯,細菌是沒有轉座系統的,所以我們需要設計一個轉座子系統,裡面含有轉座酶基因,使得轉座現象能夠在細菌裡面發生。本文中採用的轉座子系統是Tn5轉座子系統,圖示如下。

其中,IS50R編碼兩種蛋白,Tnp和Inh。Tnp是轉座酶,而Inh是它的抑製劑。Inh只比Tnp少55個氨基酸,這一段序列恰好位於轉座酶和DNA結合的結構域(就是結合位點的一部分)。OE和IE序列是轉座酶發生作用的關鍵序列。IS50R和IS50L中間夾著的是選擇基因(比如抗生素抗性基因)。

· 其它

早期研究組還使用scarless TREC(tandem

repeat coupled with endonuclease cleavage)進行基因組的刪除(集運CRISPR/Cas9技術和同源重組),但很快研究組基於效率的考慮放棄了這種方法,但這種方法開拓了視角,並且為研究設計積累了經驗。

4.基因壓縮的素材和「容器」

· 研究素材

在正式開工之前,我們肯定還需要一個天然的模板。自然地,我們把目光投向了目前已知最小的細胞生命——支原體。雖然前面提到的生殖支原體的基因組比較小,但是因為它長得太慢了,所以研究人員選擇了長得更快的絲狀支原體(Mytoplasm mycoides),方便早期篩選工作的進行。2010年,該研究團隊完成了對絲狀支原體基因組的全化學合成和安裝(這項工作被視為人工合成生命的開端),共計1078809bp(1078.09kbp),命名為JCVI-syn1.0,作為本文基因組壓縮設計和合成的原始模板。

· 受體細胞(「容器」)

人工設計和合成的基因組最後要注入生物體內才能發揮作用,驗證它是否具有生物學功能,研究團隊選擇的受體細胞是做成「空殼」的山羊支原體( Mytoplasm capricolum)。

· 其它序列

由於合成、植入還有商業生產的需要,基因組內還有一部分DNA為載體序列、標記基因還有水印序列(類似紙幣的水印,標記商業專利)。


三、設計與合成工作流——DBT循環

1.DBT循環

DBT循環即Design-Built-Test(設計-構建-測試)循環。根據以前分子生物學研究的結果、全域轉座誘變實驗結果,研究者可以獲得一個非必需基因(不含准必需基因)的名單,然後設計刪減後的基因組,再進行基因組合成和組裝,最後植入受體細胞進行測試。

2.Design環節:基因組壓縮策略

在設計之前,研究團隊會積累大量的分子生物學實驗數據,尤其是之前提到的全域轉座子誘變實驗獲得的結果。基於這些數據,研究團隊會基於一系列壓縮策略對目標基因組進行設計。設計策略主要有:

(i) 一般地,每個非必需基因的編碼區域(包括起始密碼子和終止密碼子)都會被刪除,例外將在下面陳列。

(ii) 如果一個基因簇(連續排列的基因)中不止一個基因被刪除,那麼它們的基因間序列也會被刪除。

(iii) 毗鄰被刪除基因或者連續基因簇的序列會被保留。

(iv) 如果存在被刪除的基因與其它基因重疊,那重疊部分會被保留。

(v) 如果被刪除基因包含未被刪除基因的核糖體結合位點或者啟動子,那部分序列會被保留。

(vi) 如果兩個基因獨立轉錄,我們假定它們中間存在兩個方向的轉錄啟動子。

(vii) 如果一次刪除造成了轉錄融合,那我們將在兩個基因中間插入一個雙向的終止子。

這個策略被稱為RGD(Reduction Genome design),其實是一個不斷修正的過程。值得一提的是,早期當研究人員沒有遵循這個策略的時候,曾經在刪除一個非必需基因的時候把終止子給漏了,影響了一個必需基因的啟動子,而部分細菌通過自身突變把這個謬誤校正過來了。

根據這個策略,研究人員最後會設計出猜想最小基因組(HMG,hypothetical

minimal genome)。

3.Build 環節

自然的,設計完成之後就是構建。手裡沒貨,想什麼都是白搭。構建流程基本如下:

1.寡核苷酸合成:有機合成DNA與生物合成不同,為了防止副反應的發生,通常需要對不反應基團進行保護。這限制了有機合成DNA的長度,目前的極限為260bp左右。這項研究中寡核苷酸合成的長度為48bp。

2.重疊連接:將寡核苷酸連接成1.4kb的片段。

3.校正。

4.PCR擴增。

5.5X組裝:連接成7kb片段。

6.RCA擴增

7.DNA測序驗證正確性

8.15X組裝:操作模塊。

9.8X組裝:完整基因組。

4.Test環節:檢測基因組生存力

在這一部分,我們將對移植人工基因組的細胞進行擴增培養,檢驗生存力的強弱,以此判斷基因組設計的效果,便於進一步修改和校正。

最重要的是,在驗證上一輪設計的正確性之後,下一輪刪減的數據準備也將在這一階段進行,包括全域轉座子誘變實驗,進一步完成對基因組的分類和標記,方便後續的基因設計。研究組引入了多級培養以便區分必需基因、類必需基因以及非必需基因。研究組不僅會從移植細胞(P0)中取樣,還會將其培養多代後取樣(一般為P4)。一般地,對基因組檢測結果可能為:

(i) 基因根本沒有被命中,或者只在3』端20%的區域或者5』端開頭幾個鹼基被命中,就被歸類為必需基因(e-genes)。

(ii) 如果P0和P4菌株中都被廣泛命中,則被歸類為非必需基因(n-genes)。

(iii) 在P0中發現命中但在P4中沒有發現,則被歸類為類必需基因(i-genes),它們的刪除會導致細菌生長損傷。根據對細菌生長的損傷程度,從最小到嚴重,還可以劃分出in-genes和ie-genes。

5.模塊化(modularization)

· 分塊

模塊化是設計基因組過程中最重要的思想之一。即使相對於自然基因組,模板基因組已經很小了(syn1.0也不過1000kbp),但整體操作仍然太過笨重,效率低而且容易出錯。因此研究人員對基因組進行了分塊,一共分成了8個片段,每次只改動一個片段,而其它七個片段保持不變,這樣可以控制一個相對固定的背景基因組(background),可以大幅降低工作量。最後每個片段都設計完成後,再統一組裝起來,進行最後的測試。

這張圖展現了8個模塊的區分,外側為syn1.0的基因組,內側為經過刪除壓縮後的syn3.0基因組。

· 模塊化引入的問題:從syn2.0到syn3.0

這裡要填之前的一個坑:為什麼比較基因組獲得的保守核心與必需基因核心不一定相等?原因可從下面這張圖窺見:

由於必要基因對中的任何一個基因有其替代,所以它們倆都可以「任意浪」,都不保守,但是如果兩個基因同時被敲除,細菌還是會死亡。

可以預見的是,兩個基因在轉座子誘變時都會被轉座子插滿,只是不會同時被插滿。如果沒有引入模塊化,這個問題還可能被注意,但引入模塊化後,就可能發生一個尷尬的局面:兩個基因位於不同的模塊,都被標記為非必需基因然後被刪除了,等到最後組裝的時候——細菌死了。

在syn3.0的設計合成中,這種問題尤其突出,耗費了研究組大量的精力進行篩選。


四、最終的壓縮成果——JCVI-syn3.0

· JCVI-syn3.0基因組

?基因組大小:531kb

?基因總數:473

?基因產物:438種蛋白質和35種注釋RNA

基因刪除圖譜

刪除圖譜:

>>長棕色箭頭代表模塊(兩頭有限制性內切酶Not I位點,連接需要)

>>藍色箭頭代表始終保留的基因。

>>黃色箭頭是最後被刪除的基因。

>>綠色箭頭是開始被刪除後來又被加回來的基因。

>>箭頭方向代表轉錄方向。

· 保持基因的分析歸納

·· 基因表達佔比41%

·· 基因組信息保護佔比7%

·· 膜結構與功能佔比18%

·· 胞質代謝佔比17%

·· 未知佔比17%

關於基因設計過程的詳細統計,第一列為基因功能分類,第二列為保持基因,第三列為刪除的基因

· 關於149個未知基因

這種未知其實分為兩類:一類是自上而下地未知,我們知道它的大致功能,但我們還沒有完全確定它的分子機制是什麼;一類是自下而上的未知,我們知道它編碼的蛋白質,但卻不知道它的底物以及參與的代謝通路。

值得一提的是,前者雖然有功能性的分類,但這種分類卻有著簡化的風險。比如細菌的外排系統由6個基因負責編碼,很難想像它們都執行相同的功能。到底是基因中這些功能的確這麼普遍,還是它們本質上是一個全新的過程?這隻能以後慢慢揭示。

總之,未知代表著希望:生命底層架構可能還有我們不曾想像過的機制。

比較基因組的同源分析可以幫助我們自上而下地理解基因功能分類(ps.這裡面D.melanogaster是果蠅,H.sapiens是人類,A.thailiana是擬南芥,E.coli是大腸桿菌,B.subtillis是枯草芽孢桿菌,non-mycoplasma為非支原體,non-mycoides為非絲狀支原體)

· JCVI-syn3.0的形態報告

細菌具有形態多樣性,一般聚成小的重複單位,這與syn1.0具有相似的生長模式。相對syn1.0,細胞分裂速度減慢了,但仍然遠遠大於天然支原體(天然支原體,16h—>syn3.0,180min)


五、關於基因組壓縮的進一步實驗

· 重組設計

簡單來說就是打亂順序,調整基因排列順序。實驗結果顯示,基因順序的重排並不怎麼影響生物的生存與分裂。

左側的基因順序調整為右側的基因順序

· 重編碼和RNA替換

前者簡單來說就是進行同源序列的替換——用其它生物的同源基因替換支原體基因。結果顯示支原體生長在一定情況下可以不受影響。

RNA替換研究的就是什麼情況下同源序列替換不會影響生物功能,其主要內容為密碼子變化帶來的影響。由於不同生物對密碼子的青睞程度不一樣,儘管氨基酸序列可能差別不大,但不同密碼子的使用會帶來一定的影響(合成困難,一個原因可能是對應tRNA不足)。


六、反思 · 壓縮真的到了極限了嗎?

Nanoarchaeum equitans :基因組大小 0.49

Mbp,540 個基因。比JCVI-syn3.0還要小。或許對於絲狀支原體來說,JCVI-syn3.0已經到達了壓縮極限(再壓縮下去就要以犧牲生長速率為代價了),但它顯然還沒有考慮基因層次的壓縮。同樣的功能蛋白,基因可能可以通過更精簡的序列實現,加上重疊基因的存在,基因編碼效率還有提升的空間,基因組還可以進一步壓縮。人類距離建立從鹼基序列到生物性狀的完整映射還有很長的路要走。

· 壓縮基因組過程中為進一步設計基因組的技術儲備

我們可以用相同的方法構建任何預想中的細胞:比如引入全新的代謝途徑,改變基因編碼方式,或者對基因組進行重排。

·分子生物學之殤:科研搬磚之集大成者

說實話,作為一個生物狗,看完這項研究心情是十分複雜的。儘管現在已經進入後基因組時代,談論生物信息像談論計算機信息一樣自然,但是,生物信息畢竟是搭載在複雜的系統中的。文章中輕描淡寫而過的全域轉座子誘變技術,可能意味著數以萬計的培養基,意味著無數科研人員暗無天日的重複勞動。我們很清楚,將來有一天這些工作會被更簡單的技術代替,但目前,為了向我們理想中的生物高地前進,還是得拾起這些枯燥的操作。

參考文獻:

http://science.sciencemag.org/content/351/6280/aad6253?

science.sciencemag.org

通訊作者Craig Venter可謂是傳奇人物


預告:

原來的計劃跳票了(雖然可能沒有人關心)(;′д`)ゞ

所以文章預告還是沒變......

震驚!毛毛蟲完全變態的起源竟可能是祖先亂交。( ̄▽ ̄)/

感謝閱讀!

歡迎關注我們的微信公眾號:


推薦閱讀:

微軟豪擲262億美元收購LinkedIn,我們不看好的5點理由
現在(2017年)是買32g的iphone6sPlus好還是華為4+64的mate10?
德国的制造工业那么发达,为什么德国没有像法国一样拥有自己的品牌大飞机?
為什麼我們看不到特別亮的星星?

TAG:生物學 | 自然科學 | 科技 |