DNA 是否可以回溯？能否根據子女的 DNA 無損推導出父母的完整 DNA？

01-15

能否根據子女的dna完美推導出父母、爺爺奶奶甚至更早期祖先的dna？
首先說明的是：我不是文科生，但不是學生物的，這個話題是我在上網時看到一個話題「基因是否有記憶」想到的。我個人的理解是任何人的DNA差異應該非常小，基因的編碼區可不可能是以基礎包+補丁的方式存儲的？這樣每一次遺傳，只相當於更新了一個很小的補丁；即使存儲的信息量有限，也應該可以保存很多次更新記錄，在信息即將溢出時重新打包？
好吧腦洞開的有點大了。

生無窮多個娃，就能預測出唯一的媽。

這都是理論上的…實際情況下沒辦法生無數多個，只能有限個孩子測一測序列，然後在一些很不怎麼靠譜的模型下預測一下。

所以說如果搞丟了獨生的子女想找回來得看天意…

但是媽行不代表爹也可以。因為精子只有有限的線粒體dna，能不能好好遺傳都還有爭議，所以子女身上只攜帶了父親的大部分信息。

你說的補丁的比喻對實際情況是過分簡化了，因為DNA遺傳時有複雜的重組和調控過程。對於Y染色體可能適用性比較好，比如兩個人都是win7的系統可以追溯到一個共同的祖先，而xp的已經變成化石了

首先，生物信息不是這樣保存的。

因此，簡單回答是不能的。因為經過減數分裂，每一個後代只攜帶父母一半的遺傳信息。

比如如果一對夫妻只有一個孩子，那有一半的遺傳信息在這一代丟失了。

如果有兩個，那有1/4的信息丟失，3個則是1/8，

。。。。

應該不難理解吧？

至於祖先序列追溯預測則是另一個領域。簡單來說，就是根據現有物種個體的序列來預測祖先的序列。基於一定突變模型是可以做計算，但是也需要多個物種來做聯合分析。

比如一段序列：

人： ATTTTTAAAGCC

黑猩猩： ATTTTTAAGGTC

大猩猩： ATTTTCAAGGCC

那這三個物種的共同祖先的序列，最有可能就是：

ATTTTTAAGGCC

但這種辦法，只能算出最大可能的祖先序列，因為數據龐大，這個「最大可能性」還是微乎其微的。

比如我的一個老師就說，別相信david haussler發的什麼共同祖先序列，幾千萬年前，真有一個動物有這個序列的可能性是0.

另外舉一個例子。假設一個村子，每家每戶生男孩可能性是60%，生女孩可能性是40%。

如果幾年中有100個新生兒，按照最大可能性的方法給出的預測就是這100個新生兒都是男孩。

哪怕獨立計算，每胎生男孩的可能性都更高，但這樣組合在一起得到的「最大可能性」結果也是不現實的。這就是分子進化上祖先序列預測的局限性。

所以，根據現有物種序列預測祖先序列固然重要，但在基因組的層面上不可認為算出來的序列當真存在。

首先回答問題：

（說來話長....以下情景為簡化版本，由於人體體細胞的異質性，一個細胞是無法代表全部的遺傳信息的）

1.迎合題主的情景，假設題主說的不是一個子女，而是一對夫妻多個子女，那麼在無突變的情況下，是可能的。

2. 迎合題主的情景，假設題主說的是一個子女，如果這個子女是近親結婚的產物，那麼恭喜，在無突變的情況下，這也是可能的。

3. 迎合題主的情景，假設題主擁有的是一個體細胞克隆的子女，那麼恭喜，這也是可能的。

由此可見，如果完全按照字面來回答題主的問題，我想到了這幾種比較理想的情況，但是，還是不行，一個突出的原因就是人體的細胞之間有高度的異質性，當初參與受精的那個精子和卵子所來源的精原細胞，卵母細胞都只是父親母親眾多體細胞的一種，高中生物裡面只是對遺傳物質進行了高度的抽象，實際上，細胞每分裂一代，就應該已經和上一代不一樣了（所以現在流行起來的一個技術叫單細胞測序，在癌症研究中受到非常高的關注，原因就是癌細胞快速分化，有相當高的異質性，所以，臨床診斷的同種癌症即使個體不同，也是不同的，這就是為什麼現在要提倡個性化醫療了，這是後話，展開需要再開帖子）。更不用說，甲基化，RNA editing等等非常規DNA類但屬於可遺傳信息的各種內容了。

/********************此處高亮********************/

但是，但是中的但是，題主後面的解釋是

非常正確

的解題思路

/********************此處高亮********************/

首先要肯定題主的想法，你的想法是對的，而且這就是現在基因組領域的做法：

我們來看看基因組領域的里程碑事件：

1.人類基因組計劃（China 1%）的那個，上高中生物書的那個

這個計劃就是題主說的基礎信息，這個框架圖，就是為了給整個今後的基因組分析鋪下骨架，大梁，我們稱之為參考基因組。因為人與人之間絕大多是的信息是一致的，所以理論上講，我們只需要記錄容易突變的hotspot就好了，這樣的點就是多態性位點。

2.單體型計劃（分為三期）

單體型計劃的目的就是為了充分的了解清楚這些多態性位點的內容，也就是題主說的補丁包，針對不同的種族，打上不同的補丁，這樣我們就不用再重新去構建整個基因組了。這個計劃是GWAS分析得到了充分的發揮，各種疾病位點通過這一計劃被發現。

（p.s.這個計劃之所以只研究很小很小的一部分多態性位點，是因為全基因組測序太貴，太貴，太貴在那個時候。這個計劃應該是和人類基因組計劃同時期規劃的。但是在這個計劃最後一期快完成的時候，NextGenerationSequencing 技術出現了，將測序成本直接按多少個0多少個0往下丟。這個時候人們開始想測全基因組了。於是就有了下面的千人計劃。）

（p.p.s. 在08~09年左右，華大基因的科學家們發現了，除了參考基因組以外，每個種族還有一套跟參考基因組不同的序列片段，對這些片段進行進一步分析，發現它們能非常好的反映，不同大陸上的人們的進化關係，這說明，我們的補丁比想像的要複雜的多的多）

3.千人計劃（分為三期）

既然現在大家有錢了，不，是大家測得起了，所以就成立了一個千人計劃，實際上它總共測了2400多個人左右，現在第三期即將結束。這個計劃的建立的一點，就是為了更進一步了了解不同人群中的多態性位點的情況。理想的情況是，如果我們有了各個族群的參考基因組，參考多態性位點，那麼我們就能夠更specificly 進行打補丁的工作，這裡一個常用的手段就是imputation，通過reference panel 對你想分析的樣本進行統計推斷，這樣也就不用完全去測序了。

以上只是非常非常粗糙，大概的一個發布基礎包，打補丁的描述，中間省略了很多很多很多其他的fun fact，以及轉錄組，蛋白組，等其他組學角度遺傳的信息。

說到這裡，大家肯定已經認為，就是不行了，是的，要做到無損還原是有難度，但是，鑒於基因組信息裡面有太多太多的冗餘，如果我們只關心特殊性狀，遺傳疾病的話，這樣的信息，非常充分。在疾病關聯分析領域有一種經典的採樣方式——affected sibling pair——采同時患病的兄弟姐妹，這樣的樣本相比較unrelated樣本能夠大大提高命中率。

綜上，答案是不行，但是，對於有意思的性狀，疾病，是可以的。

（臨時拼湊，如有疏漏請斧正）

顯然不能。別的不論，人是二倍體，你只有父本和母本各自一半的遺傳信息。

不能。

子女只含有父母各一半的染色體，且細胞每分裂一次都會產生不可預知的突變。

就算沒有突變也不能

不能。

首先人是二倍體，每個子女都分別從父母獲得一套單倍體的染色體，每個單倍體有2^23種可能的組合。

其次在減數分裂得到遺傳給後代的單倍體染色體的過程中會有染色體之間的交叉互換，這樣後代獲得的染色體就和父母原有的不一樣了。

另外每個人體內都會發生許多基因突變，染色體上的DNA會「失真」。

極限條件下，減數分裂過程中沒有任何交叉互換，子女和父母都沒有基因突變（不可能），子女數量足夠多從而拼湊出兩套23對染色體（小概率事件）。

還是無法推斷父母完整的染色體。

因為，除了性染色體，你如何判斷哪條來自父親，哪條來自母親呢？

突然發現上面沒有一個是專門這個領域的，哇哈哈，天助我也。本人是專門做 Evolutionary Biology 的博士狗，每天跟各種DNA 數據打交道，研究領域就是包括了題主的範圍。

這個問題的答案其實是『可以而且理論上絕對沒問題，只是不對並且不完美』。上面的各位顯然都不知道研究領域裡面就有一個『重建祖先序列』活計，就跟不要說還有各種推測先祖狀態的分析了。

舉一個例子，假設序列 ATCG，A變成 T 的概率是0.25，A 變成 G 的概率是0.75，其他任何位點不可能發生任何形式的改變。那麼 ATCG 變成TTCG 的可能性是多大？GTCG 的可能性多大？

答：0.25和0.75.

那麼個再來一個難的例子。

P 啥啥的對應某一時刻 t 的可能變化，Paa 就是 t 時刻 A 變成 A 的概率。Paa =1，其他全部值等於0. 那麼 ATCG 在下一刻還是 ATCG 的概率就是1.

你看，當我們做出假設之後（每一個 Pxx 都對應一個概率）。如果一直 t 時刻（比如今天），序列的狀態是 ATCG，我們不就能推測t+1（就是明天）的狀態了么。而重建祖先序列基本上是把這個過程反過來，我已知今天的狀況和變成今天這種狀況的各種概率，那我不就可以推測昨天的情況了么？當然計算的過程超級複雜，也不是例子里說的那麼好理解。但舉這個例子，要說明的就是，重建祖先序列之類的事情其實是落在概率論的範圍內。當我們給所有的可能變化一個假設（概率），那麼我們就能通過數學模型（比如JC69，HKY85這樣的模型）推演接下來的狀態。那麼當我們得到當前的序列的狀態，再做出合理的假設之後，祖先的狀態自然也是可以推演的。

至於完美不完美，不好意思，可以肯定的告訴你基於假設做出來的結果它都不是真的，哇哈哈哈，是不是有種上當受騙的感覺！

至於前面說的什麼這倍體，那倍體，不好意思哦，跟這個問題木有關係啊。

理論上除非摒棄掉一切突變可能之後才僅僅是有可能推知非近親父母的基因，但這很難很難。

而且實際上沒有突變的情況很少見，所以不能說不可能反推父母基因，只能說是有可能，而且非常難而已。

答案里有說能的有說不能的。其實是這樣的：說「能」的，指的是站在生物進化的尺度上，以後代生物群體的基因庫去重建祖先的基因庫，這是可以做到的；說「不能」的，是針對具體的一對父母和他們的子女，以子女的基因推算父母的基因，這從理論上是做不到的。每個子女只遺傳了父母染色體的一半，而且這一半經過交叉互換，已經分不出哪條染色體來自父親、哪條來自母親了。即使有多個子女相互印證，反推獲得父母基因序列也是基本上不可能的。

具體到題主描述中的一些問題：

【任何人的DNA差異應該非常小】

和DNA總量相比是非常小，但其實也不小。

【基因的編碼區可不可能是以基礎包+補丁的方式存儲的？】

可以這樣理解，但是注意：補丁所在的位置是固定的、分散的。好比說基礎包里有1000個文件，每次更新補丁，所修改的文件都是固定的，每個文件會固定修改其中某個位置上的編碼。而大部分編碼一直都不會變（不考慮突變的話）。

【這樣每一次遺傳，只相當於更新了一個很小的補丁】

與其說是更新，不如說是以兩個舊版本參考組合出一個新版本。或者你乾脆理解成git里兩個branch經過merge產生了一個新的commit。

【即使存儲的信息量有限，也應該可以保存很多次更新記錄，在信息即將溢出時重新打包？】

不會的。更新記錄不會保存。每個版本的補丁大小都是一樣的。或者按git的那個類比，新commit的大小和merge前的兩個版本都一樣，只不過所有的衝突都被消除了。

與或門是無法反向推導的

不能１００％推測出來，因為生物體不是機器，遺傳信息會發生重組。而且我們的基因是二倍體，一半來自父本，一半來自母本。

不可能。

不能，因為存在變異，完全一樣是不能實現的。

難度和一滴水推出一片海一樣難

人有23條染色體，不考慮互換，那麼每個人有23條染色單體傳給子代，如果你要想把父輩全部的基因都在子代找到，考慮概率均等，至少要多少個子代呢？

最理想情況，2個。

最可幾情況，其中1個孩子有23條染色單體，另外需要23個孩子，每個人有一條與第一個孩子不同，也就是24個。

最不理想情況，無窮大。

所以，你覺得你有那麼多孩子么？

受精過程中有一個步驟是染色體聯會。在這個時候兩個染色體一部分可能互換也可能不互換。我們無法知道他們是否互換了，也無法知道他們互換了哪一部分。

所以顯而易見不行。

這只是限制於同樣的父母生一個或幾個孩子。如果哪一對父母生了無窮多個孩子還原出父母的基因還是可能的。但是怎麼生這麼多孩子。

還不如直接把自己的一部分體細胞給冷凍起來。

高中生物水平嘗試答一下，

如何從一個女孩的基因推斷父親是否有Y染色體遺傳病？

從一個高中生的生物水平上說，假如有一個基因，顯性為A，隱性為a，而父親為Aa，母親未知，生養了三個孩子，都是Aa，請問母親的該基因基因型為？

很明顯根本推不出來，無論母親是Aa，aa都可以。實際上這只是簡化了的單基因的遺傳情況，想確定母親的基因型都沒有可能，更何況純靠子女的DNA來倒推雙親的DNA

不能吧，畢竟老爹的y傳男不傳女