如果有一個人的DNA序列等遺傳信息數據,理論上能否克隆出這個人?需多少MB(兆位元組)的信息量?

01-12

人類基因組有30億個鹼基對，一個鹼基對包含2bit的信息量，那麼DNA包含的總遺傳信息量是 30億 * 2bit / (8 b/B) / 1024 (B/KB) / 1024 (MB/KB) = 715MB.
問題：

DNA上的這700+MB的信息量就是一個人的所有遺傳物質的信息量嗎？假如保存到光碟上，理論上就可以克隆出來這個人嗎？（只說技術，不討論倫理）是不是在DNA之外（比如線粒體、RNA、或者母體的卵細胞的細胞質中）還有決定這個人的必要的遺傳物質？如果不能克隆，那麼克隆需要的數據量有多大？

700+MB總感覺小得不可思議啊。。一個人的信息一張CD-ROM光碟基本就能裝下了？這麼小的數據量怎麼能完備地描述這麼複雜的一個人體呢？

===================
updated @2015/9/18 23:22

有知友 @梅菜花豬豬提到還有線粒體的遺傳信息、蛋白質等，那麼請問這些信息都可以量化成多少MB嗎？理論上一共有多少MB的信息量？
如果有這些信息（僅數據），是否可以克隆（或者不叫"克隆"，叫"合成" according to @吳桐）一個人出來？

DNA上的這700+MB的信息量就是一個人的所有遺傳物質的信息量嗎？假如保存到光碟上，理論上就可以克隆出來這個人嗎？（只說技術，不討論倫理）是不是在DNA之外（比如線粒體、RNA、或者母體的卵細胞的細胞質中）還有決定這個人的必要的遺傳物質？如果不能克隆，那麼克隆需要的數據量有多大？

如果說DNA上的信息是所有遺傳物質的信息量，不是特別準確，因為還有很多其他信息在的，比如你後面加進去的線粒體的DNA。你後面說的DNA之外的那一部分不算是遺傳物質，但是算是啟動運轉遺傳信息的部分。

克隆也不需要多少數據量，只需要一個合適的細胞環境和DNA分子。然而就是

700+MB總感覺小得不可思議啊。。一個人的信息一張CD-ROM光碟基本就能裝下了？這麼小的數據量怎麼能完備地描述這麼複雜的一個人體呢？

這也是生物學家從分子生物學時代開始一直想回答的問題。現在初步的知識積累大概能解釋，DNA的信息是怎麼編碼行使各種功能的生物大分子和這些生物大分子「大概」是如何運轉的。

另外，我必須糾正以下你的錯誤，這700+MB只是核苷酸的數量，也就是說是 A, T, C, G 的數量，但是DNA鏈所編碼的信息可不止 700+MB。比如同一段DNA序列可以用來轉錄和翻譯不同的蛋白的區域，也就是說一段DNA序列攜帶了多個蛋白質序列的信息。

===================
updated @2015/9/18 23:22
有知友 @梅菜花豬豬提到還有線粒體的遺傳信息、蛋白質等，那麼請問這些信息都可以量化成多少MB嗎？理論上一共有多少MB的信息量？
如果有這些信息（僅數據），是否可以克隆（或者不叫"克隆"，叫"合成" according to @吳桐）一個人出來？

蛋白質的信息很難量化，因為蛋白質的功能是由其三維結構決定的，如果你去讀一讀生物化學的課本，了解以下蛋白是如何摺疊和行使功能的話，你會了解到蛋白質空間結構可以編碼的信息更大，但是幾乎沒辦法量化來說了。（即便原子組分相同的化學分子結構也可以千差萬別，更不用說分子量更大的生物大分子，當然生物大分子的結構有固定的模式，不過依然在三維空間上來說）。如果再考慮進化學動力學方面的信息，單純的說量化這些信息就目前的技術水平來說還是天方夜譚（不過可以用來寫科幻小說是沒有問題的）。

=======================================================================

如果，你想問的只是根據DNA能不能合成出克隆（即一模一樣）的人來。目前的技術手段來說不行。理論上來說，可能是可行的，這個取決於DNA編碼的生命個體的信息有多高的（發育上的）穩定性。再往下說就太長了，就此打住把。

我現在就可以有，點幾下滑鼠的事。所以顯然沒什麼卵用。

為個毛線我下的基因組都是2G大小，為個毛線你不算線粒體基因組。而且為個毛線你不先把代理孕母的問題先解決？

如果題主指的是細胞核基因組裡面的鹼基信息，那麼可以明確的說，是3個Gb。如果再考慮人是二倍體這一事實，那麼男性的基因組應該是5.45Gb。女性大約6Gb。

但是，這些僅僅是核內基因組的鹼基信息。如果題主所說的克隆，是生物學意義上的常規克隆的話，那麼只需要最多6Gb就足夠了。參見克隆羊多莉的產生。

但是，如果題主的意思是精確的，完完全全的「複製」一個人。那麼我們還需要知道基因組內部甲基化修飾情況，以及線粒體基因組信息。同時我們還需要精確的複製一個人的成長環境和他所經歷的所有事情，這樣才能保證這個嬰兒成長成他模版的模樣（不能說100%精確）。或者，保持其一直處在無意識狀態並且用營養液將其養大，然後再利用某種黑科技的記憶移植方法將模版記憶複製一份過去。

所以我覺得像第六日這種科幻電影所描述的場景，精確克隆一個人並且讓其能夠以假亂真，以目前的技術來說，還是很遠的。

看到提醒想起了這個問題

感覺還有點自己說的不太全的

那一張CDROM的信息僅僅是核苷酸的

如果要記錄表觀遺傳學信息以及當時細胞狀態的信息的話應該是分細胞逐個細胞至少是每個器官裡面分組織或者細胞團記錄吧畢竟比如一個腎臟的所有細胞不可能所有細胞處於同一個狀態也不大可能腎上腺皮質的所有細胞處於完全相同的信息

如果記錄細胞內每個細胞的信息再加上非細胞結構非核酸的一些比如遞質之類的礦物質之類的維生素之類的蛋白質之類的各種信息加在一起

那麼一個成人的信息超過EB級的數據量也毫不奇怪

——————以上20151007更新以下之前答案——————

有一些東西是無法被克隆的即使有所有的基因組DNA序列

人類都基因組一套是22+XY 是3Gbp（3 giga base pair）

鑒於計算機的1個bit是0或者1 兩個可能

DNA的一個base pair是A T C或者G 4種可能

那麼人類基因組純數據大小大概是6Gbit

根據1Byte＝8bit 大概是600MB左右

在不考慮校驗啊冗餘等數學問題的話 1張CDROM應該可以刻錄下來

如果再加上一些線粒體DNA 大概數量級是不到20kbp 那個就當做是附贈了

然後只有這些數據就想複製人類（或者其他生物）？

別開玩笑了不可能的

像人類或者高等植物這樣的生物僅各種基因組DNA的表觀遺傳學修飾所包含的信息就比基因組本身還要複雜……這些信號雖然編碼的基因來自於基因組但是其中記錄的信息很多是來自於母體以及環境的……

DNA的對稱與非對稱的甲基化組蛋白的甲基化乙醯化磷酸化泛素化還有細胞當前狀態下的各種nc-RNA…… 怎麼可能簡簡單單的通過那麼幾個十幾個G的數字搞定的……

無論怎麼樣，克隆出來的「生物」已經不可能是原本的生物本體。

它只能稱為

生物一號

生物二號

生物三號

如果把這三個複製品放置到不同的生存環境：

生物一號非洲土著

生物二號天朝

生物三號英國

他們後來的語言天賦和生活習慣絕對會發生改變，即便你連記憶、原本的生活習慣都被原封不動的複製。

他們都來自同一個原文件，顯而易見他們不一樣了，生物一號學會了土著語、生物二號學會了漢語、生物三號學會了英語。

雖然不相關，我說一下合成生物學近年來的一些大致進展吧。或許可以滿足一下題主的好奇心。

儘管我本人對於合成生物這一個概念是持較為保守的看法（大概度過了這個生物學的世紀都不大會有真正一個真核生物的合成吧~），但事實上，合成生物學方面的一些進展是令我有些驚艷的。

先來幾個近年來比較驚艷的發現：

1 第一個基因組DNA的人工合成

Craig Venter團隊完成了對Mycoplasma genitalium的基因組DNA的合成。如題主設想一般，僅僅靠著一堆數字化的信息，完成了基因組的人工合成。但我們都知道，由於生命體遠遠不僅僅是DNA，其實這個技術也並沒有那麼的讓人驚艷。

2 「Synthia」的誕生：第一個「人造生命」

這個生命的名字意為「合成體」，是Craig Venter通過化學合成基因組控制的山羊支原體Mycoplasma capricolum細胞。它的遺傳物質，即基因組是按照Mycoplasma capricolum的基因組人工合成而來的。由於能夠在宿主內完成自我複製的功能，被稱為人造生命~

其實嚴格意義上來說，這個所謂的人造生命合成的，僅僅有基因組。原因大概大家也應該猜到了，作為一個抱大腿才能活的二貨，失去了大腿（提供繁殖所需酶等的環境），它很快就會掛。所以嚴格來說，Venter大神團隊僅僅通過數字化的基因組信息（也就是ATCG）以及相應的在製造過程中需要的基因刪除、突變等等人工化學合成了這個基因組之後，將其插入基因組為空的一個細胞中，通過這個細胞提供的一些物質完成生命的複製。

相對於1來說，這個進步其實是微小的，但其實對於整個合成生物學來說，合成「生命」確實讓人驚艷的。合成一堆化合物並不令人驚奇——化學家們早就熟悉不過，但生命！生命！想想都讓人覺得驚喜以及恐懼。

3 酵母染色體

晚上有空再補...畢竟不是這一行的隔行如隔山期待大牛喵

reference：Creation of a bacterial cell controlled by a chemically synthesized genome.Science. 2010 Jul 2 ;329(5987):52-6. doi: 10.1126/science.1190719. Epub 2010 May 20 .

------------------------------------------

題主。遺傳信息並不僅僅在DNA，這就是為啥現在除了基因組學還有蛋白質組學還有代謝組學....

就像一模一樣的DNA信息的兩個人，也許會發生一些RNA編輯，產生一些蛋白質的變化，進而產生各種代謝通路的變化然後變得很不一樣....

我個人覺得題主的想法雖然不大成熟但還是不錯的想法題主如果有興趣深究可以關注一下合成生物學 ....儘管現在必然是沒有合成人的....

個人認為：

一、

就算是知道了所有的精確的遺傳信息（包括核外的遺傳物質，包括甲基化、已醯化、磷酸化、泛素化等以及可能還未被發現的表觀遺傳修飾）也無法完全「合成」一個完全一樣的人。

理由1、把這些遺傳物質組裝成細胞時，細胞里其他的初始成分及分布對該細胞的生長繁殖肯定會有影響，我猜測這個影響會很大；2、發育過程具有時間和空間的隨機性（不是統計學上的隨機，可以類比同卵雙胞胎並不完全一模一樣，只是類比）。

但是為毛要「合成」一個100％一樣的人出來呢，實際上並沒有什麼用。

二、我所理解的題主的主要疑惑是：這麼少數據量的信息居然能存儲這麼高級、複雜的人的生命信息。

1、數據量真的小嗎？簡化來看，4的30億次冪真的不小了（估算一下後面辣么多個零），只不過人類產生的數據實在太多了。不是計算機剛剛起步的時候一位公認的大牛預測當時的計算水平只需要幾台機器就可以計算全世界的問題了嘛，還有很多正在太空飛的機器處理器連大家用的手機的一個零頭都比不上……其實這30億已經存儲了足夠多的信息了，再加上各種修飾，你覺得不可思議是因為你拿它跟現在的電腦比。

2、為什麼遺傳信息簡單人體卻這麼複雜？先說人類這個群體，一個人最大的能力能做成什麼事？就算你是最聰明的工程師，你是一米八九的壯漢，你是愛因斯坦，你一個人能搬走一座山，你一個人能修一條高鐵嗎？你一個人連一頭野獸都不一定打得過。但是人類這個群體能做什麼，上天入海各種狂拽酷炫吊炸天。一個人體細胞能做什麼？它自己不會走、不會攝入食物、不會防禦，只有它一個的話它立馬會嗝屁。但是許許多多個人體細胞能做什麼，能跑能跳，能靠自身免疫抵抗外來入侵，能思考能創造，It"s amazing！再來說一個鹼基能做什麼，其實並不能做什麼……好吧，其實網路才是王道，個體之間的網路，細胞之間的網路，鹼基#@?!~:%$￥€……還有互聯網。

That"s all.

是否可以說複製一個受精卵所需的是700M或G+左右空間？

用Mb來形容遺傳信息的量本來就是個錯誤，因為你沒有考慮大自然的法則：細胞分化時需要的量子效應與「3」原則等等。

可以再附加　20G－F盤　畫面信息量嗎？

光有經典遺傳學的信息是完全不夠的，還需要表觀遺傳學，也就是DNA和組蛋白修飾情況的信息，如果說DNA序列是電路圖的話，那表觀遺傳情況就是眾多開關的狀態。

發育過程中（尤其是神經系統發育）環境因素的作用也很大，正是這些環境因素的影響，決定了某些基因的表達情況、神經元之間的連接情況、免疫系統的發育等等。

另外，如果是類似於克隆羊那樣的方法做克隆的話，這些信息或許還有些用，可以先用來合成受精卵，再給予合適條件令其發育成人。而如果是類似拷貝程序那樣的方式完全合成（類似3D列印的方式），那需要的信息量就太多太多了，各個分子的狀態、相互作用和空間信息，完全超出了生物學的範疇。

總得來說目前我們對於生命的了解遠遠不夠，了解了遺傳信息，大概也只是知道了做蛋糕時需要多少麵粉多少雞蛋多少白糖，然而這樣就能做出一個真正的蛋糕嗎？差的太遠。

一個關鍵問題是，從DNA信息到成為人這個過程，是地球花了相當長時間(好像是幾億年)才產生的，這個整套流程的信息量非常大，而DNA的信息你可以理解為這個過程中個體之間的不同部分。拿這個不同部分來表示一個人的全部信息是不妥的。我的意思可以理解為你來到一個沒有生物的星球，拿著這個700MB的光碟，並不能造出一個人。

再舉個例子，你學會了Hello world程序，它是如此之短，也許你以為它的功能就是在屏幕上顯示一句話，然而在古時候的人看來，所有的一切都不可思議，就是說實現顯示這句話還包括了如何製造計算機這個過程，並不只是那幾行代碼。

就算你有幾十個G的A片，實踐中也有可能姿勢無法解鎖或者只有5分鐘。。。