既然有報道說人類的基因片段只佔DNA序列總長的不到10%,那麼這幾個問題怎麼解答?

人類的基因片段只佔DNA序列總長的不到10%?其他那麼多的DNA片段就一點用都沒有?如果沒有用那這部分片段是怎麼來的?是否隨著人類的進化垃圾片段會越來越多?這部分片段存在的意義是什麼?


短回答: 這些看似無用的DNA片段實際上隱藏著生命和進化的奧秘。

長回答:

在人類基因組計劃以前,人們對基因的認識是膚淺的:基因通過控制蛋白質的合成間接控制人體的所有生命活動。打開人類基因組的寶庫,我們就可以破解生命的所有秘密,治癒所有疾病。然而,當科學家們拿到人類基因組計劃結果的時候,他們估計都是這付表情:

圖片來自www.cliparthut.com

吃驚和失望來自兩個方面。

1. 基因的數量難以置信的少。
起初人們估計人類的基因會有10萬左右(早期的教科書上都是這樣的數字),最後的結果卻是大約23000。相比之下,一些我們看來比較低等的生物反而擁有更多的基因。這一結果無疑在萬物之靈的自尊上捅了血淋淋的一刀。

(圖中和人類站在一起的蛔蟲是一種野生的透明蛔蟲,身體包含大約1000個細胞)

2. 大量無用的DNA片段。
基因是指包含蛋白質編碼的DNA片段。在DNA中,這樣的片段只有1.5%。其他的98.5%,看起來就是毫無用處的垃圾。部分垃圾的來源是可以解釋的,比如來自其他入侵的病毒DNA。這些DNA在某種特殊的機制下嵌入了人類DNA中,但是已經不能活動,沒有任何作用。DNA的目的是尋求自己的生存和複製。從這一角度看,這些DNA無疑是成功的。另外還有一部分來自進化過程中失去的器官,比如人類沒有尾巴,但是長尾巴的基因仍然存在於人體的DNA中。

這個小得出乎意料的基因庫當然遠不足以解釋人類所有的生命現象,治癒所有疾病的希望也就成了泡影。但是,人們也認識到,人類生命的最終奧秘也許就隱藏在這些看似垃圾的DNA片段中。與其把它們叫做垃圾,生物學家們更願意把它們稱為DNA中的暗物質。最近十多年的研究,已經逐漸揭開了DNA暗物質神秘的面紗。

在繼續往下講述之前,我們先來看一個基因版的《冒牌天神》的故事。

圖片來自www.amazon.co.uk

有一天,上帝來到你面前:「我最近搓了一個新的星球,準備在上面養幾個小動物。但是我這幾天有點忙,設計DNA這點小事就就交給你了。要是做好了,以後你就是這個星球的,嗯, 球長。」 壓抑著第一次設計生命的激動,你挽起袖子,說干就干。

你知道DNA要包含基因,基因用來生產蛋白質,所以你列出了動物們所需要的所有蛋白質,把它們的信息一一記錄在DNA中。同時,你還聰明的想到了用特殊的編碼來標註基因片段之間的邊界。為了讓動物能夠進化,你還給予了DNA在複製過程中變異的能力。「我真是太機智了」,你在封面上寫下《DNA藍圖1.0》,把設計圖交給了上帝。

上帝看了半天,抽出一張圖紙,說:」這個刺蝟如果生活在一個沒有天敵的環境中,刺就沒有用了。我希望它的刺可以退化掉。你需要哪些基因變異才能做到?「

你信心十足地指著圖說:「沒問題,只要製造刺的角質蛋白的基因壞掉就可以了。在這裡。」

上帝皺著眉頭說:「這樣啊,它的爪子也沒有了」。你說:「......"。

上帝抽出另一張圖紙,說:「這條魚以後會進化成陸生動物,它的鰭可以變成腳嗎?」 你說:「......"

"這頭鹿在乾旱的時候需要吃高處的樹葉,什麼樣的基因變異可以讓它的脖子變長? 還有這隻鳥,它的細長嘴是用來捉蟲子的吧? 在蟲子不多的地方,能不能變得粗短一些,可以敲堅果?「

正在你苦苦思索短脖子和長脖子有什麼蛋白質上的差異的時候,上帝又說:」這種白馬,我覺得身上長一些黑色的條紋比較好看,最好每匹馬的條紋都不一樣。」

」可是這到底有什麼用?「 在崩潰前,你嘟囔了一句。

」用處嘛,也許, 哦, 對了,它的天敵眼力不太好,可能是色盲。一大群這樣的馬跑起來可以晃花它的眼睛。」 上帝把圖紙扔給你,揚長而去。

幸好你有一個程序員朋友。你請他吃飯,並把你的難題告訴他以後,他哈哈大笑:「果然是隔行如隔山。不是我打擊你,你犯了一個很低級的錯誤。這個系統已經夠複雜了,還要考慮系統升級和用戶需求變化,你怎麼用了一個單層的邏輯結構?」

你眼睛一亮,給他斟了一杯酒,「願聞其詳。」

「首先你要有一個底層函數庫,用來做直接和硬體交互的工作。每一個函數都有自己特定的功能,邏輯要盡量簡單。在這一層上面,你可以實現一些複雜的控制演算法,由於有了底層函數庫,你在設計控制演算法的時候就不需要考慮硬體細節了。如果演算法很複雜的話,你可以考慮把它再分成多個層次。需要注意的是,第一,每一層都有自己明確的功能,第二,每一層都只能調用自己下面那一層,第三,每一層要定義好自己對上層的服務介面。其實這也不是什麼高科技,計算機的操作系統和網路協議都是這麼設計的。你看,這個是ISO/OSI的七層網路協議。「

」七層?好像多了點。"你嚇了一跳。

「是多了點。這只是一個參考模型。真正的網路沒有這麼多層的。另外,一個系統不能是硬編碼的。你必須提供一個參數配置的介面,讓同一個系統可以在不同配置下完成不同的工作。」

回去後你苦思良久,最後決定把DNA設計改成三層結構。

  1. 底層是直接控制蛋白質合成的基因。
  2. 第二層是開關邏輯,可以打開或關閉底層基因。此外,開關還可以控制底層活動的強度。
  3. 第三層實現全局控制,通過操作開關來掌握整個身體的外形和內部功能。

你把新的設計交給了上帝:「您看,這是《DNA藍圖2.0》。這次我用了這個三層結構,您老上次提出的需求都可以滿足了。」

「噢,說說看。」上帝說。

「我們先來看這個刺蝟。刺和爪子的生長由不同的DNA開關控制,他們都調用底層的角質蛋白生成基因。如果刺的開關在變異中壞掉,就能得到一個光溜溜的刺蝟,但是爪子不受影響。"

圖片來自exoticpetinfo.wordpress.com

"魚鰭要變成腳就稍微複雜一點。魚鰭已經有不少骨頭了,每一塊骨頭都有自己的開關。頂層邏輯控制每一個開關什麼時候打開,強度設定為多少,什麼時候關閉。如果在頂層邏輯中發生少量的基因變異,魚鰭的形狀就會改變,持續的變異和環境的選擇最後就會把鰭變成適合陸地爬行的腳。這種頂層邏輯的變異潛力很大,從魚鰭一直演化的智能生命的手也所需要的變異也不多。」

圖片來自How fins evolved into feet

圖片來自museumvictoria.com.au

「至於長頸鹿的脖子和鳥嘴的形狀就簡單多了。只需要控制邏輯中幾個鹼基對的變異,就可以改變胚胎髮育過程中脖子或鳥嘴開關開放的時間和強度,從而改變形狀。」

圖片來自Darwin"s finches 達爾文對加拉帕格斯雀的素描

「最後是斑馬的條紋。這個問題可以用環境參數來解決。頂層邏輯可以接收環境的輸入,動態的打開和關閉色素蛋白合成基因。每個胚胎髮育的環境肯定有不同的,這樣每一匹斑馬的條紋也就獨一無二了。」

圖片來自www.onekind.org

上帝點點頭說:「嗯,不錯。不過你這些動物能進化成智慧生命嗎?這個星球以後歸你管。你應該不想對著一群獃頭獃腦的動物呼風喚雨吧?」

「沒問題,」 你拿出了一張猿猴的DNA圖紙,信心十足的說,「這種猿猴就很有進化成智慧生命的潛力。當然了,從猿到人需要很多變化,比如靈活強壯的大拇指,支持直立行走的骨骼和肌肉,然而最重要的還是一個大容量的腦。這個猿猴的腦容量還太小,某些基因變異(控制顱骨生長的頂層控制)可以增大顱腔,但是這樣勢必會和它巨大的咀嚼肌發生衝突。必須縮小它的咀嚼肌才行。這也不難,只要控制咀嚼肌生長的頂層控制發生微小的變異,能夠提前關上開關就行了。」

「那這種智能生命就嚼不動骨頭了。」

「都智能生命了,還嚼什麼骨頭?他們會生火煮飯吃的。」

圖片來自www.studyblue.com

上帝滿意地說:「很好,很好。以後這個星球就交給你了。」 過了半天,他突然疑惑的看著你:」你是不是偷看我對地球生物的DNA設計了?「

沒錯,這個設計方案正是地球生物的DNA結構。它包含三級的控制邏輯。最底層就是直接控制蛋白質合成的基因;第二層就是開關邏輯;第三層控制整個身體計劃的是Hox基因,或者同源異形基因。它之所以也是基因,是因為它通過製造蛋白質來控制開關。Hox基因的變異可以導致身體的變形,比如人類的HOXD13變異會導致多指症(俗稱六指)。實際上,真正的DNA不像上面故事中那樣有嚴格的分層,Hox基因也會直接控制底層基因。

在這個回答中,我盡量避免涉及專業的基因學知識的前提下,用最簡單的方式介紹了最近10年內對DNA暗物質的研究進展。需要說明的是,斑馬條紋的產生的機理現在還沒有定論,應該和基因的打開和關閉有關。是否有環境影響是我的猜測。

另外,環境對基因有影響不是我的杜撰,這是Epigenetics(表觀遺傳學)的觀點。它認為,你的生活經歷會對你的基因產生影響。它並不會改變你的DNA編碼,而是會控制一些基因的開關狀態。所以,DNA就像是計算機的硬體,而環境影響設置的開關就像軟體。它可以幫助生物在不改變DNA的前提下適應環境變化。這可以解釋為什麼生活在不同環境的同卵雙胞胎在多年以後會有很大差異。

更具有顛覆性的是,表觀遺傳學認為這些後天獲得的狀態可以遺傳。所以,你下次在抽煙酗酒暴飲暴食的時候,可要三思而行了:你影響的可不只是你一個人。

圖片來自Awesomescience"s Blog on WordPress.com


呃?為什麼這個老問題會出現在我的timeline裡面?恰好之前回答過一個類似的,直接貼答案過來好了。

最近二十幾年,自然科學領域有哪些常識或理論得到了修正? - 吳思涵的回答 - 知乎

直接扣題答,就複製粘貼那邊答案的第一句和結論段。

「垃圾」DNA(Junk DNA)其實是埋藏基因組秘密的寶庫。

蛋白質編碼基因20,687個,占人類全基因組的3%。假基因11,224個,而其中某些看似沉默的假基因,在某些細胞類型中卻活躍轉錄。從全基因組角度而言,約有76%的區域能夠轉錄出RNA(包括編碼和不編碼蛋白質的)。其中,小分子RNA約8800個,長鏈非編碼RNA約9600個。同時,基因組還存在著大量的能與蛋白質結合併發揮特定功能的區域,而這樣的位點大概有300萬-400萬個。

簡單問題不要羅哩叭嗦堆砌文字吼~


題主的原問題里寫的是「有用基因不到10%」現在改成DNA,那我前面一大段回答算什麼= =!!


---------------悲傷的分割線-------------------


看了題主的提問之後,我覺得題主沒有搞清楚什麼是「基因」什麼是「DNA」。


首先,關於基因的定義,Molecular Biology of the Cell 給出的解釋是:

gene: Region of DNA that is transcribed as a single unit and
carries information for a discrete hereditary characteristic,
usually corresponding to (1) a single protein (or set of related
proteins generated by variant post-transcriptional processing),
or (2) a single RNA (or set of closely related RNAs).

From Molecular Biology of the Cell Sixth Edition, Bruce Alberts et al. (2015) Garland Science


接著,Campbell Biology 給出的解釋是:

gene: A discrete unit of hereditary information
consisting of a specific nucleotide sequence in
DNA (or RNA, in some viruses).

From Campbell Biology Ninth Edition, Jane B. Reece et al. (2010) Benjamin Cummings


可以看出雖然沒有一個完完全全統一的結論,但是至少「基因」是「DNA」上的一個個小片段,並且跟「遺傳信息」有關。這裡的「跟遺傳信息有關」當然包括編碼蛋白質的那些片段,同樣也包括TATA box一類的起著調控作用的片段。


一段基因(的鹼基序列)大概就長下面這樣:

Molecular Biology of the Cell Sixth Edition, Bruce Alberts et al. (2015) Garland Science

這是人類的βーglobin基因的鹼基序列(本來應該有三段被用黃色標記的序列,但是全部截下來太長太長了而且知乎無法調整圖片大小,使得全部截下來的話圖片會被放大得很模糊。)。被用黃色標記的部分是編碼蛋白質的序列(exon),沒有被標記的是不編碼DNA的序列(intron)。但是即使是intron裡面也有很多調控的區域(比如跟可變剪切(Alternative splicing)或者跟Exon shuffling等有關的序列),但是不管怎麼說每個基因或多或少都會表達,都能表達了還能沒用?


題主問「是否人類有用的基因不到10%」,如果根據以上的「基因」的定義,那麼答案顯然是否定的。而且「有用的基因的比例」這件事沒有太多討論的必要,因為基因的定義就是有用的東西,你不可能說身體里一些基因有用一些基因沒用,生物體內沒有沒用的基因,一旦它沒用了它就不再是「基因」了。

本來答案在這裡應該已經算是結束了,但是分不清基因和DNA的人太多,而且幾乎所有的回答都在討論DNA,所以下面開始把題目里的「基因」換成「DNA」再來看看。(其實最高票答案說得挺好,但是這個答案尋求從另一個方面來回答題主的問題)

  • 人類的DNA里編碼蛋白質的序列(exon)只有1.5%左右。

Molecular Biology of the Cell Sixth Edition, Bruce Alberts et al. (2015) Garland Science

  • 還有一些DNA片段起著調控作用(啟動子,沉默子,終止子 etc...)當還有相當大一部分具體有什麼用還不太清楚或者是以前有用但是由於基因突變或者Retrotransposon的關係現在沒用的序列。
  • 「那如果沒有用這部分DNA序列又是怎麼來的呢」

Molecular Biology of the Cell Sixth Edition, Bruce Alberts et al. (2015) Garland Science

同樣的一段編碼huntingtin protein的基因,下面是河豚的上面是人類的。人類的部分比河豚的長約7.5倍(180000bp versus 24000bp)。調控同樣的蛋白質的基因長度的差如此之大的原因是因為人類的intron(不編碼蛋白質的部分)太長了。導致這個現象出現的是一個叫Retrotransposons(反轉錄轉座子)的東西。

這個東西解釋起來太麻煩,所以偷懶直接拖wikipedia。wiki老師如此說道:

反轉錄轉座子(retrotransposon),簡稱「反座子」(retroposon),是由RNA介導轉座的轉座子的元件,在結構和複製上與反轉錄病毒(retrovirus)類似,只是沒有病毒感染必須的env基因,它通過轉錄合成mRNA,再逆轉錄合成新的元件整合到基因組中完成轉座,每轉座1次拷貝數就會增加1份,可以增強自己的基因組。因此,它是許多真核生物中數量最大的一類可活動遺傳成分。在植物中特別豐富,它們是核DNA的一個主要組成部分。在玉米的基因組49-78%是反轉錄轉座子,而在小麥中包含約90%的基因組重複序列和68%的轉座子。在哺乳動物中,幾乎有一半的基因組(45%至48%)包含轉座子或殘餘轉座子。人類基因組有大約42%反轉錄轉座子,而DNA轉座子約佔2-3%。

(圖片來自英語版的retrotransposon)

https://zh.wikipedia.org/wiki/反轉錄轉座子

Retrotransposon本來是「有用的」片段,但是因為基因突變等原因,無法表達了之後就會變成所謂的「垃圾DNA(非編碼DNA)」。

  • 人類的基因組(genome)的長度有可能在幾萬年幾十萬年之後增加,但是,是否是「隨著進化」,這不得而知。(其實如果要展開討論其實可以說很多。但是,我比較懶)
  • 討論存在意義這種事情在生物學裡在沒有確切證據之前基本就是比花式開腦洞。

供出一張我以前自己做的一個超簡陋的表格。

樣本分別是大腸桿菌,酵母,擬南芥和人類(都是些熟面孔)。這裡想強調的是裡面的B這一豎行—「基因在基因組裡所佔的比例(長度 bp)」。大腸桿菌88%,酵母70%,擬南芥29%,人類1.5%。數據有可能有偏差(對「基因」的定義的不同)但是不會差太多(在5%的水平上應該不具備顯著性差異)。

從這裡大致可以看出生物越複雜,基因在基因組裡所佔比例越少(雖然樣本數太少無法說明任何問題)。

有可能,這個世界上的生物適應環境也有一個在基因層面上的r-k戰略。一種是像微生物一樣增殖速度特別快的生物,它們能通過比所謂「高等動物」快很多的增殖速度來累積出足夠多的突變從而適應環境。還有一種是像人類一樣的所謂的「高等動物」,繁殖速度很慢,無法通過DNA在轉錄/複製等過程中的「錯誤」來累積足夠多的突變,為了能與致病菌和病毒等抗衡,有性生殖得以進化(Red Queen Hypothesis/Coevolution arm race)。通過有性生殖得到很多基因多樣性,同時也因為有性生殖的「錯誤」產生很多「看似沒有用的片段」。但是由於基因突變等原因,這些看似沒用的片段有可能會突然變成能表達的「基因」。換個說法就是:這些看似沒用的DNA們給了進化「物質上的基礎」。這也是有性生殖的好處,也是現在很多生物不惜付出超高額的代價還進行著有性生殖的原因吧。

最後,說一些題外話。這是我寫了那麼大一篇DNA「有用/沒用」的時候想到的,實際上跟本答案沒有任何關係,大多數人直接跳過就好。


最近在知乎里會看到很多關於「生物學」的提問,但最後會映射到人類社會裡。「人種」,「同性戀」,「智商」,「xxx有用/沒用」,「xxx好/不好」。
生物學裡有很多法則是很殘忍的。在大多數人看來,自然選擇告訴我們這個世界是「弱肉強食」的,是「適者生存的」。一切在看起來「不適應環境」的都會被淘汰。所以,有人會說同性戀是反自然的,強姦在生物學上是具有積極意義的,天生身體就有缺陷的人是該被淘汰掉的 etc...... 是的,希特勒也是這麼想的。在生物學上,你問我強姦是否具有積極意義,我估計可以舉出很多支持這種觀點的例子。同樣,我也能舉出無數的關於身體有缺陷的動物被淘汰的例子。問題是,在生物學裡看似對的理論,能直接地套用於人類社會么?
從「xxxx是xxxx。」這種陳述性的句子,不能導出「xxx比較好」,「應該xxxx做」這樣的具有價值觀導向的句子。是的,強姦在生物學上有可能具有積極意義,但是強姦在人類社會裡是不對的。同樣,身體有缺陷的動物會被無情地淘汰,你能觀察到的動物的「利他行為」還是由於他們倆血緣關係近,幫助了他相當於自己的基因copy也傳下去了才產生的。但是在人類社會裡跟你完全沒關係的殘障人士就該被淘汰掉么?
估計覺得殘障人士活該被淘汰的人應該不太多,但是在世界經濟不景氣的現在,對於「社會弱者」的支援在社會達爾文主義者們的眼裡看起來完全就是一種「浪費」吧。
人類自以為自己不同於其他動物,但是仔細想想,我們有的情感,很多動物也有,我們有的邏輯思維能力,很多動物也有。這些只是程度的問題。但是不要灰心,至少我們還有一樣是其他生物沒有的,那就是「浪費」。在這個不提倡「浪費」的時代里,當一個叛逆的人吧。

參考文獻:

Molecular Biology of the Cell Sixth Edition, Bruce Alberts et al. (2015) Garland Science

Campbell Biology Ninth Edition, Jane B. Reece et al. (2010) Benjamin Cummings

https://zh.wikipedia.org/wiki/反轉錄轉座子


人類DNA有80%到90%會被轉錄成RNA[1],而只有2%最終被翻譯成蛋白質。以前生物學家們主要盯著蛋白質,並不知道dna有這麼多部分只轉錄不翻譯。自從人類基因組被全部測序,人們發現了人類並不比結構簡單的動物有更多基因後,又對人類轉錄組做了測序,得到了上述結論(然而果蠅、線蟲等動物基因組被轉錄百分比也是90%以上……)。那是2000-2002年左右的事情[1,2]。而在那之前的1997年,生物學家們就發現了一種依賴非編碼RNA的基因表達調控機制,也就是RNA干擾[3,4]。從那時起,不編碼蛋白質的RNA成了最近十幾年生物學研究的熱點。隨著越來越多非編碼RNA以及其他基因調控元件的生物學功能被發現,垃圾DNA這個概念也被掃進了歷史的垃圾堆。

參考文獻:
[1]

Wong, Gane Ka-Shu, Douglas A. Passey, and Jun Yu. "Most of the human genome is transcribed." Genome Research 11.12 (2001): 1975-1977.
[2] Yu, Jun, et al. "Minimal introns are not 「junk」." Genome research 12.8 (2002): 1185-1189.
[3] Covey S, Al-Kaff N, Lángara A, Turner D; Al-Kaff; Lángara; Turner (1997). "Plants combat infection by gene silencing". Nature. 385 (6619): 781–2.
[4] Ratcliff F, Harrison B, Baulcombe D (1997). "A Similarity Between Viral Defense and Gene Silencing in Plants". Science. 276 (5318): 1558–60.


只要學會按照自私基因的理論去思考問題,性這一個明顯的佯謬就變得不那麼令人迷惑不解了。例如有機體內的DNA數量似乎比建造這些有機體所必需的數量來得大,因為相當一部分DNA從未轉化為蛋白質。從個體有機體的觀點來看,這似乎又是一個自相矛盾的問題。如果DNA的「目的」是監造有機體,那麼,一大批DNA並不這樣做,這是令人奇怪的。生物學家在苦思冥想地考慮,這些顯然是多餘的DNA正在幹些什麼有益的工作呢?但從自私的基因本身的角度上看,並不存在自相矛盾之處。DNA的真正「目的」僅僅是為了生存。解釋多餘的DNA最簡單的方法是,把它看作是一個寄生蟲,或者最多是一個無害但也無用的乘客,在其他DNA所創造的生存機器中搭便車而已。

有些人反對這種他們認為是過分以基因為中心的進化觀點。他們爭辯說,實際上生存或死亡的畢竟是包括其全部基因在內的完整個體,我希望我在本章所講的足以表明:在這一點上其實並不存在分歧。就象划船比賽中整條船贏或輸一樣,生存或死亡的確實是個體,自然選擇的直接形式幾乎總是在個體水平上表現出來。但非隨機的個體死亡以及成功生殖的遠期後果,表現為基因庫中變化著的基因頻率。對於現代複製基因,基因庫有保留地起著原始湯對於原始複製基因所起的同樣作用。性活動和染色體交換起著保持原始湯的現代相等物的那種流動性的作用。由於性活動和交換,基因庫始終不停地被攪混,使其中基因部分地混和。所謂進化就是指基因庫中的某些基因變得多了,而另一些則變得少了的過程。每當我們想要解釋某種特性,如利他性行為的演化現象時,最好養成這樣一種習慣——只要問問自己:「這種特性對基因庫里的基因頻率有什麼影響?」有時基因語言有點乏味,為簡潔和生動起見,我們不免要藉助於比喻。不過我們要以懷疑的目光注視著我們的比喻,以便在必要時能把它們還原為基因語言。

就基因而言,基因庫只是基因生活於其中的一種新湯。所不同的是,現在基因賴以生存的方式是,在不斷地製造必將消亡的生存機器的過程中,同來自基因庫的一批批絡繹不絕的夥伴進行合作。下面一章我們要論述生存機器本身以及在某一個意義上我們可以說基因控制其生存機器的行為。

——《自私的基因》 第三章:不朽的螺旋圈


最近的一篇來自關於ENCODE項目進展的報道否定了這個傳統的觀點,認為那些絕大多數看似無用的的基因實際上是有重要作用的,只是以前的認識不夠而已。


@Mandelbrot 和 @Reschneider Lee已經解釋的很詳細了。

除此之外關於人為的作用,現在還可以利用這些病毒侵略的「痕迹」——病毒殘留的DNA片段,建立系統樹確立物種間的親緣遠近關係。這種方法的可信度還蠻高的(不同的祖先遭受到病毒侵略攻擊在同樣的位置植入DNA片段的可能性非常低。)


估計能看懂我這個回答的人不多。題主把編碼蛋白質信息的DNA序列稱作「基因」,我這裡也採用這個稱呼。


生物系統不同於人類在傳統化學與物理學領域所接觸到的絕大部分系統。在傳統化學與物理學中,研究對象的性質主要取決於系統內各組分自身的性質;也就是說,我們將系統各組分隔絕開來單獨研究,得到的結果就基本能解釋整個系統。最簡單的例子就是高中物理的小球碰撞問題和化學的多重反應平衡問題,只要知道了系統單個組分的特徵(如每個小球的坐標、速度和質量,再如每個化學組分的濃度、反應速率和反應平衡常數),即可預測整個系統的基本演化規律(如動量和動能變化、反應平衡點)。


生物系統與傳統研究對象不同之處在於,生物系統是強關聯的複雜系統。對於強關聯繫統來說,系統的性質不僅受到系統各組分自身性質的影響,而且還強烈地取決於系統組分之間的相互作用,有些時候後者的影響甚至是決定性的。對應到細胞這樣的生物系統,就是對於細胞的遺傳與生理特徵來說,不僅每個基因自己編碼的蛋白質很重要,基因之間的相互調控更重要,後者決定了基因表達的時空有序性。題主所提到的90%以上的非編碼DNA序列,其實編碼的正是基因之間相互作用的信息。

所謂的垃圾DNA,是一部分naive的傳統生物學家+愛搞大新聞的媒體在姿勢水平不高的情況下聽風就是雨的結果。


人類基因組內有很大一部分是病毒反轉錄過去的。
所有生物身上都有。


樓主能不能先定義一下什麼叫「有用」?


看到一個本專業的值得回答的問題我非常的激動。

首先明確定義是很重要的。

「基因一詞來自希臘語,意思為「生」。是指攜帶有遺傳信息的DNA序列,是控制性狀的基本遺傳單位,亦即一段具有功能性的DNA序列。基因通過指導蛋白質的合成來表現所攜帶的遺傳信息,從而控制生物個體的性狀(差異)表現。」——摘自維基百科

可以看到基因的定義有兩個層次:1.攜帶遺傳信息並且控制性狀。2.通過指導蛋白質的合成來實現定義1。

隨著近年來對RNA認識的加深,我預測定義2會有很大的修訂,也就是說會有更多的基因通過指導RNA的性狀來控制生物的性狀。

回到原題「人類的基因片段只佔DNA序列總長的不到10%?」,嚴格意義上講這裡的基因應指蛋白質基因,也就是定義2下的基因,在RNA調控的發現之前,這個陳述是有一定的討論價值的,但是現在基本上已經是一句空話。要結合當時人們對基因調控的認知來理解這句10%。由於分子生物學是首先在病毒學和微生物學的基礎上建立的,大部分基因調控的知識都來自於細菌和病毒的基因組(PS:這個事實到今天也沒太大改變,比如CRISPR/Cas和Ago)細菌和病毒的基因組有一個特點是,大部分都是蛋白質基因而且排列及其緊湊。這個現象可以從演化壓力的角度上來解釋,此處不做展開。

可想而知的,科學家會作出「人類的基因組看起來應該也差不多的假設」(符合最大熵原則),但是實驗觀測並不符合假設:相比細菌緊湊的蛋白質基因組,人類基因組的蛋白質基因像天女散花般散落在各個位置,而基因組的其餘部分對科學家來說是難以理喻的(Incomprehensible),於是一小撮科學家給它了一個名字「垃圾DNA」(「Junk DNA」)。看到這裡你大概明白「垃圾DNA」本身就是一個認知不全的情況下亂起名字留下的遺迹,當然10%這個噱頭作為向大眾宣傳分子生物學的把柄還是功不可沒的,因為它的「表面矛盾性」(Apparent contradiction)可以促進有益的邏輯推斷,這個知乎問題本身就是最好的例證。

更有甚者,」垃圾DNA「這個概念本身就不是很嚴謹的科學概念。這裡的」垃圾「更多的是一個人為的定義,而不是一個實驗的結果。讓我們簡單定義「垃圾」意味著沒有遺傳價值/不能改變性狀,那麼我們完全沒有理由說其餘的90%是垃圾——事實上,在基因組學裡很多非蛋白質的DNA序列是和性狀有統計學相關性的(例子待補),也就是說很有可能可以控制性狀(可以通過人工變異來檢測)。

最後我想以CRISPR為契機,直觀地呈現生物學知識的漸進性,Mycobacteria Tuberculosis的基因組裡面有一段是空白,不產生蛋白質。

(NCBI基因瀏覽器,HRv37, 圖中手動標註了CRISPR_start..CRISPR_end = 3119185..3120468,見Mycobacterium tuberculosis H37Rv (ID 166))

但是在發現CRISPR以後,這塊區域(3119185..3120468)明顯是一個CRISPR陣列。

(CRISPR檢測結果,見CRISPRs Finder online)

瞬間打臉。

總結:看不見的東西,不一定不存在。生物學的未解之謎,還有太多,不能操之過急。


不是無用,而是人類還不知道有什麼用。


90%的基因沒搞懂,但我敢說100%的轉基因是安全的。


調控調控調控調控調控調控調控調控調控調控調控調控調控調控調控調控調控調控調控調控,重要事說二十遍。


從程序員的角度來分析下,一個系統,經常運行,佔用最多CPU時間的代碼可能還不到10%,但是系統是不能只靠這不到10%的代碼來支撐的,但是除此之外的確有很多代碼是沒用的,歷史遺留下來的垃圾,但是也沒有人清理。


很多基因不是沒用,而是只用到了一次或很少用到,導致看起來有用的就那麼一點

就跟程序一樣,真正經常用的代碼沒有多少,大部分都是圍繞少數代碼運動的!


不是沒有用的,90%是重複序列,這些重複序列各不相同,有的拷貝數多兒bp短,有的bp短而拷貝數多。這些序列,雖然絕大部分沒弄清楚機理和作用,但是推測與基因的調控相關,而且這部分序列也應用到部分技術中,比如親子鑒定等。


來句題外話,挨踢連學帶從業十五年,註冊表我也就看得懂10%


大部分人答的是基因組只有1.5-2%編碼基因序列,進而編碼蛋白質發揮功能,其他序列曾經被認為是垃圾序列。但是這個觀點目前大家已經不同意了,因為可能其中很有非編碼蛋白的RNA轉錄出來,有調控區域等等。

但是題主問的是基因的百分之十是無用的,我不知道也沒聽說過這個說法,你是不是問錯了?


你看錯了,這篇報道的意思是人類搞明白用途的基因不到10%,剩下的怎麼用沒人知道。


推薦閱讀:

為什麼動物混血就能混出花斑,人和人混血就只能混成均勻膚色?

TAG:基因 | 遺傳學 | 進化生物學 |