DNA 裡面到底可以寫入多少信息?

比如袋鼠,小袋鼠出生之後,會自己爬到媽媽的袋子里,然後找到奶頭,如果它不能完成這一系列動作,就會死掉,剛出生的袋鼠能夠完成這一整套標準動作,是受大腦(或者植物神經?)控制的,而它的大腦是在DNA的指揮下形成的,是不是可以說,袋鼠的DNA裡面是包含這些求生信息的?人類也有類似的情況,據說小孩子喜歡狹窄的空間和遠古時代人類生活的洞穴有關係。

那麼DNA到底能承載多少信息,在它可以承載的空間內,如果多寫入一些知識,一個生物在出生後不就節省了學習的時間嗎?


被邀請回答了。

因為這個問題很難,需要一個非常棒的科普作家才能講好。而且,這個問題用一個這樣的回答,甚至科普文章,都不夠過癮。這玩意完全可以像讀一偵探小說一樣去讀。如果你有時間,我建議你可以去讀 Sean B. Carroll 的 Endless forms most beautiful: the new science of evo devo and the making of the animal kingdom(Norton, New York, 1st ed edition, 2005)這樣的書。

如果你不想去讀這本書,那就聽我這種偽專家隨便說說了。

首先要澄清一下問題。先問一個,DNA 是什麼?依中文維基的說法:

〝脫氧核糖核酸(英語:Deoxyribonucleic acid,縮寫為DNA)又稱去氧核糖核酸,是一種分子,可組成遺傳指令,以引導生物發育與生命機能運作。主要功能是長期性的資訊儲存,可比喻為「藍圖」或「食譜」。其中包含的指令,是建構細胞內其他的化合物,如蛋白質與RNA所需。帶有遺傳訊息的DNA片段稱為基因。其他的DNA序列,有些直接以自身構造發揮作用,有些則參與調控遺傳訊息的表現。〞

換句話說,這本身是一遺傳編碼機制,問 DNA 能寫入多少信息,就好像問用莫爾斯電碼能發多少信息。只到有時間有空間,想寫多少就能寫多少。

幸好,有問題說明,原來提問者關心的是那些先天就會的生物本能,和控制這些本能知識的可能性。

這樣我想,問題其實是:DNA 存儲的是什麼樣的知識?DNA 是如何存儲這些知識的?這樣的存儲機制是如何生成的?

一般人的反應,或許是,DNA 就是關於怎麼讓一個人成為一個人並正常運作的知識,這知識當然是通過基因及其調控機制來存儲的,通過進化來完成的。

看上去,這涉及了發育,生理,分子生物學,遺傳學等諸多領域,好像是緊密相連的數個不同的問題,但我想強調的是,這是幾個高度重疊的問題,從科普的角度上,它們完全可以當成一個問題來理解。

這可能有點令人困惑。

假如人是一橦房子(很不恰當的比喻),其實上面的問題就相當於:這房子有什麼樣的功能,是怎樣運作的,房子是如何建造的,房子的圖紙又是如何,建築歷史如何,等等。

房子怎麼住,必然要在設計建造時考量,但,這畢竟是兩件事吧。

好,讓我們看看人是怎樣的一橦房子。

假設我們認為人是一橦光鮮亮麗的大房子,當我們走進門,會發現,在這光鮮的外表下,還有一橦房子,看上去要古老一些。外面比起裡面來,可能多了一些單元和附件,有些外表的改觀,多了些管線,但是,外面這大房子卻是裡面這老房子撐起來的,最核心的部位和功能,供水供電,承重牆,都依賴裡面的老房子。

當我們走進裡面這橦老房子,會發現裡面還有橦更老的房子,它和外面的那橦老房子的關係,就像那橦老房子和最外面的房子的關係。老房子相對於更老的房子,也有些新的單元,而這些新單元,相對於最外面的房子的很多部件,已經是不可或缺的基石。

當我們走進這更老的房子,現在,不出意外的話,你已能預料到,這裡面還有一橦更更老的房子,裡面還有一橦更更更老的......

直到我們走到這些房子的最里處,會看到那橦最古老的房子,它或許不能稱得上是房子,或許只是個小棚子而已,但是,它卻是整橦房子的基石,比如能量生產,最核心的管線都會走到這裡,在這裡完成一些最基本的原料加工。

舉了這個比方,是想說,生物的進化,不是一次次的革命,一次次的推倒重來,而是遞進累加的,就像是這房子,總是在原來的基礎上,小改小修,加建補建。

有人可能會奇怪,因為畢竟人,自然界的各種動物,相差何止千里,比如龍蝦,甚至,說到絕一點,那古老的三葉蟲,除了 DNA,細胞這些微觀的,難道人和這些動物真得在形態機理上共享著很多東西?

(如果不記得這些東西長什麼樣了,請自己搜索一下,並照照鏡子。)

但是稍微一看,一想,你會發現人和這些動物有很多共同的形態特徵。

比如,大家都有頭,都有左右,都有肚腹。是的,這些是對稱性動物最基本的形態特徵,就是從一個胚胎開始,哪怕還只是一個細胞,它們就會有三條基本的軸線:頭尾,胸背,內外。你可以看看雞蛋,看它是不是有頭有尾。

讓我們往更複雜的形態特徵看,專註頭尾這條軸線。龍蝦的一個基本特徵,就是這玩意在頭尾方向上是一節一節的。而三葉蟲也是一節一節的。事實上你可能馬上會聯想到自然界中無數的動物都有這樣的環節特徵:蚯蚓,蝴蝶......。而我想說的是,人也是這樣的,不信你摸摸自己的脊柱。

這當然不是偶然的。這種環節特徵在發育時是由一組專門的基因控制的,叫 Hox genes,英文 wiki 上是這樣說的(中文維基說得很不清楚):

「Hox genes are a group of related genes that specify the anterior-posterior axis and segment identity of metazoan organisms during early embryonic development. 」

這組 Hox genes,在上面提到的這些生物,包括人身上,都有,雖然各有不同,但基本功能一致,是所謂的同源基因,從同一組基因進化而來。

同理,關於各種重要的器官,也都有相應的基因來調控。而這些基因,也大多是在各種動物中有同源的基因。而就是這些基因,通過自身的調控機制,讓一個胚胎細胞能在正確的時間和位置一步步的分化發展成各種不同的組織細胞,協同工作,構成一個複雜的多細胞生物體。

出現這樣的情況,其實是很好理解的:

進化畢竟不是造房子,不是旁人給你建,不是平地起高樓,而是在自己身上建,要一邊住一邊建。所以,要是改動過大,把住戶自己給玩死了,那進化也就無從談起了。所以進化也不是隨便進化的。

為了把事情說清楚,讓我們回到進化論的本源,重溫一下 Darwin 在《物種起源》里提出的基本觀點。粗粗來說,Darwin 在《物種起源》里的主要觀點有四個:

  1. 物種的可變性。
  2. 自然界的可認知性。
  3. 因為隨機變異而產生的發散型的變異趨勢(branching off)。
  4. 自然選擇。

在當年,對頭兩條大家是普遍接受的,而引起爭議的,還沒輪到現在最常被提及的自然選擇(所謂適者生存),而是第三條,就是進化不是單線條的。單線條式的進化,就是 Lamarck 這樣的,更高等的動物替代掉低等動物,附合人對自身優越性的肯定,乃至人種論,所以在當年,甚至現在,也容易被認同。而 Darwin 所認為的發散型,則沒有了這種優劣感,遞進性,變成了物種的多元化,平等性,一個在當時相當可怕的概念。

Darwin 的觀點在當時沒能被大家接受,一個重要的原因,就是進化的機理還不情楚,人對 DNA 一無所知,更不用說什麼變異進化了。

現在我們知道,生物的進化是客觀存在,只要是 DNA 進行複製,就存在變異的機率,而且,變異本身是一種相對獨立的過程,會有各種不同的結果,就是 branching-off。

但是,因為自然選擇的存在,導致進化有很大的方向性。

為了說明這種方向性,要對基因和它們的調控單元有個大概的理解。

依照研究搞順勢調控的專家 Eric Davidson 的說法,基因和它們的調控單元們可以大致分為這樣幾類(中文是我加的,不知是不是學術界的說法,所以下面都用英文):

  • 核心單元(kernel):有專門進化意義的單元,基因之間有複雜的反饋控制,相互依賴性極高。
  • 插件單元(plug-in) :有專門功能,可以被各種系統移為己用
  • 通信機制(i/o device):完成各個單元之間的通信
  • 分化顯型單元(differentiation gene batteries):這是基因網路里最後的處理單元,直接決定了各種顯形,比如膚色,身材…

古典 Darwinian 進化論,其實觀察到的是最後的 differentiation gene batteries 和它們對應的顯形之間的關係。比如著名的 Darwin"s Finch。這也沒辦法,Darwin 當年也無法觀察到基因型。這到更顯出他老人家的洞察力了。

Davidson 說,kernel 的進化是最關鍵,最不可逆的。一但一個重要的 kernel 出現,就決定了整個物種走上了一條很難回頭的道路。比如對稱性的生物形體一旦出現,就應該沒有倒退過,這是因為決定這一對稱結構的 kernel 具有非常高的完成度,任何影響此 kernel 機制的簡單變異都無法維持該物種的延續。從物種角度,kernel 基本上決定了門以上的分化,而 plug-in 和 i/o,決定了亞門以下的分

類,differentiation gene batteries決定的,可能也就是種屬里的區別吧。

而這些分類都是相對的,因為基因之間慢慢會建立更緊密的關聯,基因也會開始一專多能,讓以前不是特別關鍵的基因也變得重要。

所以可以保留下來的變異,一般是這樣的:

  • 在分化顯型的基因上的一些變異。這些變異是最外在的,對物種的生存不會產生立刻的影響,可以由自然選擇慢慢決定。比如人的膚色是一種典型的顯型單元,可以迅速變異(100 代之內,人的膚色可以完成從純黑到純白的進化)。
  • 產生多餘的拷備。變異有時可以大段的複製基因組。重要的基因,有時可以有多餘的拷備,對物種的存在也無直接響。
  • 變異出現在這些有拷備的基因上,因為原來的基因還有副本在,所以變異不會影響正常的生存機制。這樣會產生一組直系同源基因,比如上面提到的 Hox genes,就可能是這樣出現,讓動物產生了越來越多的環節,然後不同的環節再進化出不同的插件單元,比如翅膀,手臂,附肢。
  • 在原來的基因上增加了新的調控機制,這樣可以讓同一個基因在不同的發育時間,不同的組織細胞里扮演不同的角色。

要再次強調的是,變異是客觀存在,而再加上自然選擇,讓動物的基因組很難有冗餘,所以才有了上面的這些機制。

另一點要強調的是基因開關,基因調控機制的重要性:

一個常見的驚嘆是:人的基因組只有 30000 個基因,不僅遠遠小於以前的預期,更 「駭人」 的是,有 98% 的基因跟猩猩的基因是一樣的,而既使是線蟲這樣的低等動物,還有 19000 個基因。

但基因只是編碼蛋白質,所以不管是什麼動物,裝配和運轉它的基石都是差不多的。進化更令人感嘆的,是用差不多的原材料,人的基因能搭出如此複雜的生物系統:像線蟲這樣的低等動物,每個基因只有一兩個調控區,而人的基因則可以有多達幾十個調控區,可想而知,人基因的表達模式的組合要比線蟲多出不知多少倍。

按照進化生物學的說法,就是生物多樣性的進化不是因為專門的基因的出現,而是依賴於對同一組基因按照不同的方式來配置。

一般,說完規則,還要講一些例外。是的,有些東西不是基因能完全決定的,這個,叫表觀遺傳學,參見中文維基定義

「 表觀遺傳學又稱「擬遺傳學」、「表遺傳學」、「外遺傳學」以及「後遺傳學」(英文epigenetics),是一門生物學學科,研究在沒有細胞核DNA序列改變的情況時,基因功能的可逆的、可遺傳的改變。這些改變包括DNA的修飾(如甲基化修飾)、組蛋白的各種修飾等。也指生物發育過程中包含的程序的研究。在這兩種情況下,研究的對象都包括在DNA序列中未包含的基因調控信息如何傳遞到(細胞或生物體的)下一代這個問題。在西方文字中epigenetics即指在DNA包含的遺傳信息以外附加的(希臘文前綴epi-)。」

好了,有了上面的介紹,我們大約能理解,生物的進化是環環相扣的,所以才有了這樣一個獨特的造房子的過程。

那,這和往人基因里加一些知識有什麼關係呢?

我要說的是,因為這種環環相扣,人的發育的過程,也是一個這樣的一層層造房子的過程。這是因為幾億年的時間決定了這些基因調控在時間空間上的精確的相互依賴機制。

如果你看人類胚胎髮育的過程,也能看到人的胚胎有長得像蟲像魚的時期,有自己的尾巴,指間有蹼,慢慢的伸展發育開來。就是說,人的發育和動物的發育在開始有著驚人的相似性。而很多那些我們認為讓人成為人的特徵,也就是說,那些在最近幾十萬年,乃至幾萬年才進化出的特徵,在孩子身上也是很晚才發育完成的,比如人的大腦門兒。

這發育有多晚?要知道,人的發育可不是在出生後就結束了,還有十多年的路呢。是的。這也是人的特質之一:比其它動物長得長的童年成長期。

先說解題里提到了一些出生的生存本能。其實人也有不少,比如抓握反射,游泳反射等。這些都是新生兒要生存必需會的。但是,這些反射在絕大部分人身上,不久就消退了。記住上面提到的進化無冗餘。如果只是在出生時有用的東西,進化會把它變異掉,沒必要保留。

而其它的知識呢?

我們要看看大腦的發育。

人腦的一個重要的特點就是自主記憶,和長時記憶。雖然現代研究不斷挑戰既有的認知,但我認為對大部分人,大部分記憶能力是在 2-3歲時才發育的,以前只有短時記憶:有誰記得自己四歲以前的事?如果有,大部分是家長事後嘮叨的結果。

人的記憶能力和語言能力是密切相關的。我們現在知道,人大腦里負責的語言部分的是主管語義的 Wernicke』s area,和主管語法(動詞和介詞)的 Broca』s area。這後者,Broca』s area,在大部分動物中幾乎不存在,對於猩猩這樣的動物,它們的語言大腦也基本在負責語義的部分,所以即使是經過專門訓練的猩猩,它們可以學會許多單詞,甚至會使用簡單的片語,但是它們不會造句,因為它們的大腦缺乏造句的生理機制。

兩歲的兒童跟猩猩一樣,出於學習單詞,理解詞義的階段,然後開始會兩詞的片語,最後,當語法部分的大腦發育後,才開始掌握語法。因為語法的發育很晚,持續時間很長(可到小學 5-6 年級)。

而重要的自我意識,理性思考呢?一般到兩歲半的時候,兒童會有自我意識,他們可以意識到鏡子里的孩子是自己。到四歲的時候,兒童會意識到其他人的存在。到六歲的時候,邏輯和推理能力才開始完備。小學設在六歲,也是有它的道理的。

至於決?自控這樣需要腦前葉發育的,則可要等到青春期,童年尾聲才成熟(有些人要更晚)。

如果你想要輸入的「先天」知識所需的生理準備程度和這些必要的前提條件不附,那還是不要逆天了。

那我們可以不可以改良人這個物種呢?

理論上是可以的。(雖然,你看了上面寫的,應該明白進化無優劣。)

根據我上面說的,你也許可以意淫這些事:

一種是加快變異的速度:

  • 引入新的獨立單元。比如新的免疫機制。
  • 一些顯型的變化,比如用鍵盤很重要的話,或許手部或脊柱某些肌肉的增強,不易勞損,會增加這些人的競爭優勢。不過這顯然不如提高身體的某些其它特徵靠譜。
  • ......

一種是改變自然選擇的規則(不過效果要幾百幾千年後了,如果社會條件不變的話):

  • 比如上面說的鍵盤重要性。

  • 如果社會壓力大到沒有祖父母,乃至曾祖父母幫助,就無法延續後代的話,那更長壽的人會有競爭優勢。
  • 有研究表明,腦前葉發育早的孩子在現代社會的學校里有優勢,自控能力強,能較好完成作業,取得好的考試成績。

  • ......

老實說,這些都是,至少在現在和你的有生之年,都是扯蛋的事。

人能容忍的,最多也就是用基因工程來治治病,或者,我覺得這個很多家長可能很希望哦,讓孩子智力發育的快一點。

最後,你想/敢/願去娶/嫁一個基因改造女/男么並生兒育女么?


在沃森和克里克1953年發現DNA結構以前,基因和DNA還是兩個概念。基因是個功能元件,而DNA只是個完美的化學分子(這當然也是在發現它完美的雙螺旋結構之後才認識到),把這個完美的結構和神秘的功能結合起來,在那個年代是件相當激動人心的事情,更加深了一些人對生命的敬畏。但是後來許多人發現DNA與基因之間的關係遠不是人們期望的那樣。其中最重要的就是「中心法則」的建立,而這個法則一直但現在仍然還在發展和完善。簡單的說,中心法則就是就是生物界的二進位,是信息傳遞的基礎。當我們對生物信息傳遞的基本規則都弄不清楚的時候,去談論如何寫入信息,那就是天方夜譚。還有就是經常拿計算機與生物做比較,當然這是在現實中最接近生物的系統。計算機作為一維信息的介質,而DNA的信息不只是一維的序列信息,它所處的細胞核的三維位置都包含信息。照這樣說,想要人為在DNA內寫入信息幾乎不可能。但是就像我們還沒發現相對論的時候,不妨礙我們使用牛頓定律。因為人類是很善於歸納演繹的,當我們研究某些基因是如何發揮功能的時候,就會很自然的總結一套規律,然後類比其他未知的基因,如果能夠解釋,也就證明這套規律可用;如果出現意外,可能會有新的發現(這也就是現在生物學研究的一般方法)。所以我們能夠在現有掌握的規律內最大程度的寫入部分信息。這也就是轉基因技術的原理。


提出這個問題的人,是以1970年之前的科學觀來提問題,就像牛頓力學體系下,提出超光速理論一樣。實際上基因控制的生物,不是專制體制下的座鐘,給定既定條件和規則,便精確地運行。我只說一點,混沌學派以及更新的研究表明,世界即便給定的條件規則是確定的,世界的未來依然不確定!新事物是依賴湧現、進化而不是驅動實現。

說到底,更多的人還是用(起始條件+規則=精確結果)的傳統科學來思考這個問題。混沌之後的新科學觀認為,規則是一種限制條件而不是路線指示,前提條件可以不充沛,一切新現象的產生源於湧現(相當於傳統科學中「生產」)與進化(相當於傳統科學中的「設計」)


這裡涉及兩個方面:第一,生物體裡面本身蘊藏著多少信息?第二,我們可以多大程度地人為將目標信息以核苷酸的形式寫入生物體內?一個是可以有多少,另一塊是寫入多少

首先,DNA的本質是脫氧核糖核苷酸鏈,染色體的重要組成成分。人的基因組一共有30億個鹼基對。DNA的組成單元是四種脫氧核糖核酸:嘌呤脫氧核糖核酸(A)、鳥嘌呤脫氧核糖核苷酸(G)、胸腺嘧啶以及胞嘧啶脫氧核糖核酸(T、C)。理想狀態下,這四種核苷酸隨機在人類長達30億個鹼基對的基因組上隨機排列,有4^3billion種可能。在人類漫長的進化過程中,自然選擇將人類的基因組序列「選擇」性地表現成如此。人與人之間的差別歸根結底是DNA上鹼基序列的差別。從宏觀上看,存在於人類DNA上如此巨大的信息量藉助蛋白質的壓縮存在於直徑為微米(10^-6)數量級的細胞核內。由此可見,DNA作為信息儲存器的一個優點就是容量大。

另一方面,基因工程的發展將人為改變遺傳物質變成現實,在體外合成目的片段DNA序列,通過酶切連接轉化等步驟使目的序列在原核生物如大腸桿菌體內保存是分子生物學中十分熟練的手段。今年6月份發表在《自然》雜誌上的「CRISPR–Cas encoding of a digital movie into the genomes of a population of living bacteria」即展示了如何將一部電影的信息儲存在一群活的大腸桿菌體內。研究者成功地將電影畫面的每一幀的像素信息依照特定的轉換規則轉變成DNA中可讀的ATGC信息,以DNA序列的形式儲存在大腸桿菌種,並且還完成了信息的重新讀取重現。

這就涉及到第二個問題,人可以多大程度上地將靶信息轉化成DNA序列而寫入生物體內,在這裡我們默認這個操作應當要在不改變該生物的本身特性為前提下,可以想像,我們在大腸桿菌體內寫入信息,但是這種寫入決不能影響大腸桿菌正常的增殖和生存。以人為例,人的基因組共有30億個,編碼功能蛋白的基因只佔5%以下,這並不意味著剩下的95%就可以隨意被改變,最常見的是在人類的基因組上存在著大量的基因表達調控序列,它們雖然不編碼蛋白質,但是它們的改變對生物體將造成不可預知的巨大影響。因此,對於DNA作為一個信息儲備裝置,如何找到合適的外源信息寫入的位點,這也許是一個不可忽視的阻礙。在上文中提及的文章中,研究者把一部小電影轉化成ATGC儲存在大腸桿菌種,也是建立在定點整合即特異位點整合的前提下。對於細菌而言,噬菌體(病毒的一種)可以侵染細菌,並通過相關的酶(如整合酶)將自身的遺傳序列定點地整合到細菌體內,人為改進後,細菌可以正常增殖存活。我們提到的將電影儲存在大腸桿菌體內,也是由於報道者發現了大腸桿菌的CRISPR-Cas系統可以將病毒所攜帶的核苷酸序列「捕獲」(capture) 並整合到自身基因組上的特定「spacer」序列上。這樣的特異位點的發現將有助於本題所說的信息儲存。

將活動個體作為信息儲備場所,例如大腸桿菌,在增殖過程中,隨著DNA複製代數的增多,整合的信息也會面臨著內容改變或者消失的風險。但是除此之外,可以想像,如若那一天真的到來,我們人類身上儲存著外來的數據,而又能保持著原本的自我或者通過一些「外源」信息的寫入,人類找到了更優秀的自己,豈不是一件爽歪歪的事情。


這個問題非常有意思, 因為關於"DNA中到底要攜帶多少信息"這個問題, 生命的進化史上曾經產生過重大分歧. 一派認為DNA中要盡量攜帶更多的信息, 這樣就減少了學習的成本; 另一派認為DNA中只需要攜帶生存需要的信息, 同時賦予個體學習能力,以適應變化的環境.

前一派發展到目前的終極形式是昆蟲, 後一派發展到目前的終極形態就是人類. 可能很難說究竟哪一種更成功, 因為目前為止昆蟲反而比人類分布範圍更廣,數量更多.

提問者設想的,如果DNA中攜帶了盡量多的信息, 那麼我們豈不是不用上學,生下來就獲得了很多知識,這樣多好呀. 這種是第一派的策略, 這種策略有個缺陷就是不能適應環境的變化, 為了補償這個缺陷, 昆蟲採取了大量和快速繁殖,縮短生命周期從而加快基因流動的辦法來應對變化,這也制約了昆蟲向智能生物的進化.


我只來回答DNA到底能承載多少信息這個問題。

目前市場上在賣的比較強大的台式機的硬碟可以儲存6TB的數據,由於化學降解,數據在硬碟裡面最多只能保存近50年。

而經科學家們研究得出的結果是:1克DNA能容納455EB的數據(1EB=1024PB,1PB=1024TB,1TB=1024GB),是不是容量相當恐怖!!!下面就來說說這種基於DNA中兩兩互補的4種鹼基(A,T,C,G)和其組成的雙螺旋結構而建立的強大儲存技術

科學家們最開始是怎麼想到運用DNA來製造這種新的儲存技術的呢?這麼說吧,一段有 4000個鹼基對的DNA可能的排列方式就有44000種,共同構成了相互纏繞的雙鏈階梯狀的螺旋結構。通過這四種鹼基不同順序的編碼,存儲了生物所有的遺傳信息。另外DNA的儲存時間長也是一個重要的因素,2013年,科學家們成功從一根化石骨頭裡面為一匹70萬前的馬完成了基因測序,不過要注意的是,這骨頭需要保存的很好,不然會由於暴露在周遭環境中,導致DNA損壞和降解。

那該如何將信息保存在DNA里呢?拿一本書來舉例吧,首先要做的便是將書的內容變成電子數據(用二進位表示),再將二進位1,0數據編碼成DNA的四種鹼基組合,隨後通過微流體晶元對基因序列進行合成,從而使該序列的位置與相關數據集相匹配(這裡是人工合成的DNA,如果用活體細胞中的基因組,細胞不僅會死亡,而且還會分裂複製,這對其中存儲的數據都是致命性打擊),合成後的DNA被保存在二氧化硅材料(類似化石的結構)的保護殼中。研究表明,在二氧化硅的保護中,把其暴露在70攝氏度的環境下一周(相當於正常生活環境下降解2000年),DNA所保存的內容完好無損。更為震撼的是,據科學家們推算,在零下18度的環境下,DNA中所儲存的數據可以被無損保存超過百萬年。保存完後,要如何讀取數據呢?其實就是為DNA測序,將所有DNA片斷排列順序後,還原成二進位格式的數據,這樣,一本電子版的書籍就還原在你電腦顯示屏幕上了。

可惜的是,目前的科技水平還無法將此DNA存儲產品推向市場並廣泛運用,主要原因是DNA 存儲和讀取都相當耗時間,而且價格貴得驚人(每MB需要近1.5萬美元)!


當初我正是懷著利用計算機的方法來解讀生物密碼的所謂「理想」選擇了生物信息學這個專業的,但是生物體的複雜度遠遠超過在座大部分人所理解的那樣,和目前計算機處理信息的方式完全就是兩回事,計算機的處理方式決定了它可能永遠都不能真正模擬生物體,哪怕是最簡單的原核生物體。


即興。感覺近來某乎有趣問題的增長速率開始急劇下降了,快沒得玩了。

人類基因組的大小大約是3Gbp(Giga-basepair)。在一個電子遊戲就要幾十Gb(Gigabyte)的時代里看來,這個數是不是顯得小了?

就人類基因組而言,信息量真的不是"特別"大。假如按30000個編碼蛋白質基因計算,每個蛋白質平均佔用10kbp的信息量,也不過是300Mbp。這樣看來人類基因組的冗餘還很大的。

有些人可能會argue所謂的表觀遺傳學信息。事實上,表觀遺傳學機制所包含的信息,除了極少量比如跟prion相關的核外遺傳是獨立於基因組的,其它的信息都應該包含在基因組信息裡面,所以它並不包含任何新的信息。當然這一點很難論證,這也是目前表觀遺傳領域的一個核心爭論。

問題就在於,這個信息量還不如一個現代遊戲的信息量的有高度冗餘的系統,為何看起來要比一台計算機複雜?或者這種感覺本來就是一種幻覺?

我是覺得,這種感覺本來就是一個幻覺。很多現代人沉浸於遊戲中,大概就是因為遊戲比人生更加複雜。我們之所以感覺生命體複雜,不過是因為它是自然的造物,而不是人造物。自然的造物用人造物的邏輯是難以理解,但是這並不意味它"複雜"。也許生命體根本就不"複雜",只是我們理解它的方式還沒有達到某個點子上。

在近幾年機器學習領域快速發展,但是早在數十年前,就已經有人造出"談話機器人",它的機制也是出奇的簡單:統計詞語組合在句子中出現的頻率,再用來生成新的句子。當然數十年前"談話機器人"的智能性遠遠比不上近年的機器,但是基本思想卻是一致的。一個19世紀的人可能摳破了腦袋也想不出的智能機器,我們用一個"簡單"的統計模型就做到了。所以可以預見到在未來我們會漸漸發現簡單的規則就可以生成我們所看到的"複雜"的一切。

題主說"如果多寫入一些知識,一個生物在出生後不就節省了學習的時間嗎"。其實,如果沒有生物,那不就連學習的時間都省了嗎?人造物取代自然造物是一個趨勢。我看到了一個人造物的未來,一個純粹計算的未來:知識存儲在人造的知識容器中,在人造的計算機器中演算,再產生新的知識,這才是最高效的。這樣的一個循環將會取代當今的生態循環。


就目前所知的進化機制來看不太可能進化出天生就攜帶大量知識的人,因為這並不是生存必須的,也就沒有選擇壓力。而通過人為去強行改造DNA風險太大了吧,再說知識體系是不斷更新的,寫入DNA里的信息那應該屬於"本能"那個層面,以後要糾正就很難了,這樣出來的人是不會有創新能力的,就像低級動物一樣。如果把每個剛出生的小孩做這種改造,人類肯定完蛋了。

個人覺得一些科幻片里的在大腦植入知識信息是比較靠譜的。腦細胞屬於神經細胞,大腦在發育成熟後細胞就不變了,這些腦細胞是要用一輩子的;人在後天學習的東西通過各種電信號保存在腦細胞,所以通過人為干預腦細胞的狀態應該是有可能實現記憶植入、知識植入的,而且這種干預是可逆的,因為畢竟沒有改變DNA,人還是那個人,他可以根據自己的意志改變大腦里被植入的信息。


單純從生物信息學的較多來說 DNA的信息含量比想像的還要巨大


存儲能力

在一項新的研究中,研究人員將一本完整的遺傳學教材保存在了不到一沙克(picogram,億萬分之一克。也有人譯為微微克、皮克等)DNA 中

編碼方法

編碼數字文件時,研究人員將其劃分為小塊數據,但不是以當前通行的 0、1 來表示存儲數據,而是以組成 DNA 的四種脫氧核苷酸(鹼基)As、Cs、Gs 和 Ts 表示。

錯誤概率

為證明該系統的可行性,研究團隊先將遺傳學教材轉換並存儲到 DNA 存儲晶元上,然後再轉換回數字格式。演示系統的出錯率為百萬分之二,總共只有幾個單詞拼寫錯誤。這種效果等同於 DVD,且遠勝於磁碟存儲設備。

存儲密度

再加上其尺寸微小,DNA 晶元是當前已知存儲密度最高的介質。

發展瓶頸

因為當前受 DNA 測序成本及相關儀器限制,這種存儲技術還沒有辦法普及。

Via. 36Kr:終極存儲設備 -- DNA

詳情見《科學》文章:Next-Generation Digital Information Storage in DNA


DNA儲存的信息其實不僅僅和DNA有關,還和蛋白質有關。

先做個類比,計算機儲存的信息都是二進位的,也就是0和1,怎麼把這些二進位信息轉換成我們能理解的信息(文字和圖像、音頻、視頻)?這就需要一個硬體讀取0和1,然後翻譯器(或者叫解碼器之類的)識別這些信息,應該翻譯成文字,就按翻譯成文字的規則翻譯,應該翻譯成視頻就按另一套規則翻譯,如果弄錯規則,翻譯出來的就是亂碼或者無法播放。

那麼,相比來看,DNA儲存的信息就是四進位的,即ATCG,讀取這些信息的就是RNA聚合酶——讀取DNA合成RNA,然後翻譯器就是核糖體——按照RNA合成蛋白質,蛋白質發揮他的功能,顯現出表型。

但是DNA和計算機磁碟的信息,最大的不同,是DNA上的信息,讀取的起點可以變化,專業的說法是,基因A的可讀框和基因B的可讀框重疊甚至包含。同一段DNA序列,從不同的地方開始「閱讀」得到的基因是不同的,翻譯出不同的蛋白質,起到不同的作用。在一定意義上,就做到了100對鹼基當做200對鹼基使用!但是,計算機磁碟,沒聽說能做到這樣。(一篇文章分兩截看的不算。。。看起來多可,信息沒變。)

為什麼說和蛋白質有關,就是因為這個過程,受到一些蛋白質的調控,使得RNA聚合酶在讀到終止子的時候不脫落,繼續閱讀,完了之後還有RNA剪接等步驟,都需要一些蛋白質的作用。(具體叫啥,記不清,沒時間去翻書,有興趣可以翻分子生物學教材。)

再補充一句,有些病毒,DNA鹼基對非常的少,但是卻能表達多種類的蛋白質,非常牛掰,就是有這種「重疊基因」。有些計算機程序,也有類似的,(比如64K的執行文件,運行後可以播放很長的視頻和音樂,名字我忘了),是不是差不多這個原理,我就不清楚了。


如果生物是執行dna的硬體平台的話

dna就類似編譯完成的機器碼 而不是代碼

就算是普通的代碼編譯成機器碼之後 比如你所理解的 1 2 3 4 在機器碼裡面就變成了ascii碼的0x31 0x32 0x33 0x34 這只是極簡單的對應關係 而且你可以理解它是如何編譯的

而在dna中 信息的編譯者是大自然 我們並不知道這個信息的編譯方法 只能逆向工程反推

比如某個基因是某個生物功能的表達 而且dna的編譯方法不只具有順序邏輯性恐怕還有結構邏輯性

比如一樣的代碼 邏輯順序都沒變 結構不一樣 執行起來就不一樣了

況且dna中還存在大量目前看來無用的代碼

最關鍵的 dna多數都是一些分子級別功能的描述

比如你寫了一段代碼 在顯示器上顯示1 2 3 4 四個字元

你真的認為計算機會理解 0x31 0x32 0x33 0x34的實際含義嗎?


所謂DNA可以寫入多少知識的問題,實際上說的是這一代人的基因中,能保留多少人類既往進化史中形成然後給予的遺傳信息。

  話題描述中所到的小袋鼠現象,我在觀察鳥中,也有道理上相似的發現。我曾工作過的一個地方,臨窗有一粗壯的樹枝,年年都有斑鳩來做窩,沒有見過老斑鳩教新斑鳩啊,新斑鳩在哪裡學的呢?我想到了基因預設,到時候,春情發動、交配、做窩、孵蛋,一步一步的,斑鳩都可以不師自通做好需要做的事。

  大約是2006年初,我在《參考消息》頭版左下角,見到一條外電消息,說美國《科學》雜誌評出了全球上年「十大科技新發現」,其中第6條說到了基因開關。這個基因開關,過去曾被認為是失去作用的垃圾基因,後來發現對人生具有重大作用。

  這個基因開關,會定時啟動,決定人什麼時候進入青春期,什麼時候停止發育,什麼時候進入更年期等,甚至還決定你什麼時候可能患上什麼大毛病,什麼時候去世。

  隨即發現的一樁事,讓我迅即想到有這個道理。我一位熟人,平時身體極好,喜好踢足球,年青時考上過飛行員,兒子現在也是飛行員。退休一兩年後我見到他時,不由大吃一驚,他的頭髮眉毛幾乎全白了。驚問何故,他說前不久?突發高血壓住院,剛出院,還說他父親從前就是這樣的。

  這太奇妙了,怪不得有些同卵雙胞胎,會有學習能力相似、愛好相似、同時患什麼疾病、甚至還會異地心靈感應,是因為他們基因極其相似。這方面的情況,曾屢見報道。

  前幾年,好像也是從《參考消息》上看到的,說人的基因與老鼠的基因,百分之九十多都是一樣的,只因百分之幾不同,就決定了是人還是老鼠。可謂差之毫厘,去之千里。

  曾就兩個得了同樣的癌症,為什麼一個活得長些,一個活得短些,請教過一位中華醫學會的專家,是什麼道理?他說,這和基因也有關。如不惜代價,對兩人的基因進行分析,可以發現差異,但這沒必要,即使知道了,也沒法改變。 

  民間有說法:「人上一百,形形色色。」其實不僅指思想品質,還指身高、體質、相貌、性格等等。基因需要規定這種差異,否則人都變成一樣的,就無法分辨了,潛能都一樣,通過同樣的訓練,長跑都是冠軍,就沒有冠軍了。

  假如基因規定人不會死亡,人都不死,像人這種絕對優勢動物無盡地繁衍下去,地球上恐怕該有數千億人了,因裝不下,自己早把自己消失掉了。如果規定人都只能活多少歲,大批的人到某天整齊地死掉,那又會是一種什麼景象呢?

  人會死亡,人有差異性,才會更有利人的生存。人如強項都一樣,競爭就失去了意義,人如弱點都相同,一場橫掃地球的瘟疫,早就可能把人消滅掉了。

  君不見,人工造林的單一樹種,最容易發生和迅速傳播同樣的病蟲害,從而成為一個頭痛的問題,而原始森林或原生植被,雜樹叢生,就不會受同樣的病蟲害侵擾,如果不是人類的破壞,就具有天然的抵抗力,能夠在自然界生生不息。

  英國著名科學家恩里科.科恩,曾經為基因是如何遺傳的,是父係為主,還是母係為主,還有哪些因素在起作用而苦惱不已,後來發現,除了有父親和母親的因素外,還有一個因素,即在精子與卵子結合的瞬間,還會產生一種類似人的靈感一樣的「創造」性的結果,決定了你既來自於父母又是你自己。他在其所著的科普名著《基因的藝術》一書中,對此有精彩的描述。

  但是無論基因的遺傳有多麼霸道和神奇,但她一定要留出一定的空間和應變機制,來適應後天的變化,來進一步進化,哪怕這個進化在一代人中,是幾乎可以忽略不計的微小,但一代一代的進化下去,人的進化就實現了。

  這在動物身上也是如此。也是在《參考消息》上,見過報道,說將食物放在一個讓老鼠鑽不進去,又夠不著的洞里,然後在洞邊放一根小棍,老鼠在經過各種努力都取不到食物後,會拿這根小棍,把食物掏出來。如果就讓老鼠這樣生存,不定老鼠也會進化到可以使用簡單的工具了。

  一位院士在聽我談起基因開關的事後說,這個道理應該是成立的。但是後天也可以促使起產生一定的變化。某些環境的因素,可以抑制或激發基因開關的啟動,讓其推遲或提前發動,或誘導其向好的方面或差的方面發展。

  想一想,這就好比是車造出來了,不管是低檔車,還是高檔車,你一定得給他一個方向盤,才能適應不同的路況行駛。儘管車遲早是要報廢的,但你車開得好、會維護,哪怕車差一點,開得時間也可長一些,否則,就是好車,也會開不了幾年,就報廢了。


DNA中的信息量可以說是無限的,我們一般將DNA拉直之後進行序列分析,這個過程好比是看計算機程序的二進位代碼,通過一些已知的特殊段落進行標記,這個過程又好比是從彙編的級別去看代碼,但是隨後,這些DNA在細胞中通過轉錄翻譯,組合成蛋白又有N種可能,組合的順序,先後次序,角度,旋轉方向等等,都會導致結果和效能的不同,這個用現有的計算能力就暫時無法理解了。

智力的遺傳現在已經證明是部分可行了,但是僅限于思維能力和模式的傳遞,但是記憶目前看來是無法複製的,否則我們就可能永生。

但是我依然堅定的認為,在我們的有生之年,能看見基因工程師這個職業的誕生!


大家都答的是作為生物方面。其實DNA真的可以當成我們的硬碟來存儲數據。

DNA如果作為信息儲存材料的話,可以完爆現在的各種盤。DNA 的理論存儲密度可以達到每克455 EB (1 EB = 2024 PB = 2048576 TB)。1g DNA是多大呢?指甲大小都不到。隨著以後可攜式dna測序儀的發展,DNA可能就可以取代現在的移動硬碟了。原理就是現在的數字存儲是0和1的編碼,只需要吧0和1換成DNA的序列ATCG就行。一個DNA鹼基的大小是1~2納米左右,而且可以高密度的纏繞在一起。而一個電子元件卻大得多,還需要規整的排列好。DNA存儲方式和傳統電子存儲方式的比較見下圖。

如果我們想要儲存這個世界上所有的信息,僅僅只需要一公斤的DNA就行,真正的一斤DNA在手,世界我有。

想要詳細了解可以看看這個nature 報道以及harvard Geoge Church課題組這方面研究。

How DNA could store all the world』s data

另外,DNA還有很多其他的有意思的功能,比方納米材料的構建,可以關注我之前的回答。我也準備寫系列的文章來介紹DNA各種除了基因功能之外的神奇作用。

下面是一個關於DNA分子機器的回答。

如何通俗的理解 2016 年諾貝爾化學獎「分子機器」的設計合成原理及其帶來的改變?


DNA只是一種物質,信息量要看有多少DNA吧,而且感覺樓主是要探討思維的存在形式。

比如,一個精子裡面的信息量是37.5MB


我認為這些信息不是單純地保存在DNA中的。

DNA,更像是一個智能的事件處理庫,遇上什麼場景,會產生什麼樣的反應。


我覺得如果真的能夠研究清楚生物的信息描述和傳遞管理模式,將會產生跨代性的飛躍,DNA圖譜號稱已經解讀完了,但我覺得這裡包含信息量挖掘還遠遠不夠,而且即便都挖掘透了其實還只是生物中的一小部分,想想我們神經元的構成和機制,更恐怖,誰能想像那種臨時關係怎麼維護和建立啊。侏羅紀公園裡面的一個經典評論「生命之偉大之處就在於他總能為自己找到出路」,當這種理念成功引入計算機並予以實現的話,天知道會發生什麼。


其實絕大多數的dna都不會被transcribe,translate成蛋白質,很多都是regulatory的,有些transcribe成RNA最近很火的microRNA,lincRNA,各種regulate= =。。。。加上alternative splicing,外加chromatin的結構,epigenetic(和環境的互相作用)。。。。簡直是博大精深。。。。以至於我學著學著就相信有個supermind設計了這些高度複雜的機制。。。。

舉個小小的例子證明epigenetic的作用,有實驗發現老鼠媽媽舔舐小baby次數多的他們的小baby長大了也會做比較有愛心的媽媽。。。最後研究表明是舌頭刺激毛皮讓大腦分泌了一種東西(忘了?)然後可以刺激基因的表達,改變小老鼠的大腦,從而讓他們比較有愛。。。。(具體是什麼忘了。。。可是當時聽覺得這也太神奇了吧。。。。)


推薦閱讀:

寶寶滿月眼睛還能長大嗎?
新生兒的膚色是如何確定的?
蛋白質工程能不能設計出特異針對朊病毒的抗體?

TAG:基因 | 脫氧核糖核酸DNA | 基因工程 | 生物學 |