大猩猩和人的基因序列相似度為98%,這是多相似?比如,人和白菜之類的基因序列相似度有多少?
人類和黑猩猩的基因相似程度98%,這個是錯的。
經常看到各種問題,
比如,
人類和黑猩猩的基因相似程度有99%,為什麼人和猩猩差異這麼大呢?
猿星崛起3要上映了,估計這個問題又會被很多人提到。
然而,這句話論據就是錯的。
————哪裡來的99%?————
其實,99%這個數據並不是無中生有,這個內容是來自1975年的一篇science文章。
在這篇文章里,作者通過比較了人和黑猩猩的部分蛋白質結構,得出了人和黑猩猩基因相似度99%的結論。
(上圖是比較的部分內容,紅框為相似度)
於是,作者得出結論是:
That is, the sequences of human and chimpanzee polypeptides examined to date are, on the average, more than 99 percent identical
但是,這個內容是有適用範圍的
只是部分比較
由於當時的技術限制,所以,作者只是比較了人和黑猩猩的43個蛋白質差異,發現相似度很高。
然而,這只是人體蛋白質的滄海一粟啊。
人體有多少蛋白質呢?
答案是25萬-100萬左右。
用43個相似度去推論100萬個的相似度,比盲人摸象還誇張。
————真實的相似度 72% or 88-89%————
那麼,人類和黑猩猩真實的相似度有多少呢?
2001年,人類基因組全部組裝完成,這意味著,有史以來,我們第一次看清楚了人類基因組這30億個鹼基對的真實情況。
而既然有了基因組的信息,那麼,直接比較就可以了。
不過,不要著急,因為,黑猩猩的基因組還沒測呢!
2005年,黑猩猩基因組測序完成
於是,我們真正的比較人類和黑猩猩基因組有了材料。
那麼,首先最簡單的比較染色體,發現:
染色體數目不一樣
上面的綠色是人類的染色體,下面的紅色是猩猩的染色體。
最直觀的是,黑猩猩比人類多了一對染色體,圖中標識的是2A,2B。
染色體都差異這麼大,你還說相似99%,這不是欺負人嘛。
以1號染色體為例:
圖中,藍色是差異,綠色是G+C含量,紅色是重組率。
具體選幾個轉座子瞅瞅
左邊是黑猩猩,右邊是人類,這差異……
進一步,直接比較二者的基因組差異。
Best reciprocal nucleotide-level alignments of the chimpanzee and human genomes cover ~2.4 gigabases (Gb) of high-quality sequence, including 89 Mb from chromosome X and 7.5 Mb from chromosome Y.
有2.4Gb 匹配的很好,做個簡單的算術,人類基因組是3.2G, 2.4÷3.2=75%,在去掉3%左右的核算替代引發的差異
This difference corresponds to ~3% of both genomes and dwarfs the 1.23% difference resulting from nucleotide substitutions
結論呢:
72%!
人類和黑猩猩基因的相似度,只有72%!
上面這種演算法相對簡單粗暴,不過也有學者進行了更加全面的以及演算法角度改進後的計算。
結論是88-89%!但是,必須注意的是:
這裡的88-89%,均指可以比對的部分(即排除了大量無法匹配的序列)
———88-89%———
其實人類基因組和黑猩猩基因組差異,已經多次被發現了,比如在這篇文章
Tomkins J. Genome-Wide DNA Alignment Similarity (Identity) for 40,000 Chimpanzee DNA Sequences Queried against the Human Genome is 86-89%[J]. Answers Research Journal, 2011, 4(2011): 233-241.
作者通過比較保守基因組序列,發現人類和猩猩的相似度也只有86-89%。而且這還是去掉了大量無法匹配的序列後的結論(excluding data for the large amount of chimp sequence that did not align)。如果加上那些序列,肯定會越來越低。
另外mon1st提到一篇文章里對於演算法的改進
https://answersingenesis.org/genetics/dna-similarities/blastn-algorithm-anomaly/
不過該文章依然是去掉了不可比對部分後的相似度為88%
【the alignable portions】 of the current chimpanzee genome assembly are 88% similar on average to human.
總體上看,無論如何,人類和黑猩猩的基因組相似度不會超過90%
本文參考文獻
1,99%相似度 King M C, Wilson A C. Evolution at two levels in humans and chimpanzees[J]. 1975.
2,人類基因組文章 Lander ES L L M, BIPREN B. Initial sequencing and analysis of the human genome[J]. Nature, 2001, 409(6822): 860-921.
3,黑猩猩基因組文章 Mikkelsen T S, Hillier L D W, Eichler E E, et al. Initial sequence of the chimpanzee genome and comparison with the human genome[J]. Nature, 2005, 437(7055): 69.
補充,關於靈長目下的個各種,人,猴子,猩猩,猿之類的區別之前寫過科普
李雷:既然人類是由猴子(猩猩)進化而來,那為什麼世界上還會有猴子(猩猩)?剩下那些為什麼不進化了?
大體進化結構如下圖
—————關於相似性—————
本文討論的是基因組相似性,換句話,就是比對DNA序列。
人類不同人之間的差異在1%以內。
但是一旦誇了物種,這個相似度會劇烈下降。
比如本文提到的靈長目下的黑猩猩和人類的相似度就已經降到了90%以下。
有人提到人和老鼠?小鼠基因組2.5G,人類基因組3G,相似?
我看到說人和小鼠相似的時候,說的是基因同源,而非DNA一樣。
我隨手找個基因,上面的某個片段,5個鹼基的大小。
然后里面包括了人,黑猩猩,小鼠,豬,貓和狗。
在一些人看來,這幾種生物,除了狗,都有這個基因,所以他們百分百相似。
然而真實情況呢?
僅僅5個鹼基,除了1個在不同物種一樣,其他的4個都不一樣,而人類,有30億個鹼基對,而狗乾脆就沒這個基因。
以人類為藍本,那麼這5個鹼基的話
黑猩猩相似度80%;小鼠相似度40%;豬相似度20%;貓相似度60%.
然而,很多人會說,這四種和人類百分百相似,因為都有這個基因……
以上,轉載自:李雷:我們有哪些錯誤的常識?
沒看過大猩猩的比對,看過黑猩猩的,黑猩猩的是比對每一個重要的黑猩猩基因和人的基因的相似性,求相似性的平均數,由此得到百分之99,98或者其他數字。
至於"重要的"基因是按照什麼標準選出來的呢?選出來的是一種叫single copy的等位基因。為什麼只有一個拷貝的基因被認為是重要的基因,其中一個原因是因為"有且只有一個保守",其他原因我不知道,就不介紹了。
所以相似度比對比的一般就是關鍵基因的相似性。如果比那些用來親子鑒定之類多樣性很高的DNA位點,種內相似性都不高,都不確定這些DNA位點種外有沒有呢。
這些相似性意味著什麼呢?首先要明白,基因組數據的數據量不小。人基因組序列文本大小大約有3G,為了保證數據準確要存四十個測序的文件,即純文本文件120G。
所以大數據處理和解讀是很複雜的事情,所以也說不好百分之九十八是有多相似。
人和白菜差太遠了,人們也不知道"相似性"該怎麼算呢。
補充一點,基因組裡非編碼序列非常複雜,而科學家需要設計計算機演算法,策略性地對基因序列進行比對,所以非編碼序列比不了相似性(這個不嚴謹,只是大概介紹一下),能比較相似性的只能是一些特別的位點。
更新:
氣不過,以下是碎碎念時間。
[Bye]上網有害身心健康。
網上最近的紅文叫:"人和猩猩相似性98%,這是錯的"。文章給出的理由是Nature四十年前有一篇文章測了大幾十的蛋白相似性,結論是98%。但是現在測single copy測出來數據還是98%+啊,又不止那一篇文章這麼寫。這些數據這麼寫當然有特殊的意義在裡面,否則單看相似性,看不出任何意思。結果這些網文起一個驚悚標題,內容經不起推敲(並沒有真的去告訴人們如何解讀數據),人們看了覺得自己好像"學到了知識",就去推崇這樣的網文,以至於它很流行。還有那個都說爛了的,瑜伽是性愛姿勢的謠言,不管誰寫,不管怎麼瞎寫,它就是永遠這麼流行。[Bye][Bye][Bye]single copy比對的文獻(不好意思我只看過這一篇。但我知道不要對科學研究發表驚悚的奇談怪論,這就夠了):
https://www.ncbi.nlm.nih.gov/m/pubmed/22722832/
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3498939/。
這篇文獻刊於2012年的NATURE。人們嫌四十年前的Nature過時,那麼,2012年的Nature總不該過時了吧?!
這篇論文的文章正文是這麼寫的:
On average, the two alleles in single-copy, autosomal regions in the Ulindi genome are approximately 99.9% identical to each other, 99.6% identical to corresponding sequences in the chimpanzee genome and 98.7% identical to corresponding sequences in the human genome. A comprehensive analysis of the bonobo genome is presented in Supplementary Information. Here we summarize the most interesting results.
不管怎樣,相似性高低其實不是最重要的,大家應該關心的明明是:相似性到底是什麼意思?
人72%是水,白菜至少應該90%是水吧、
也就是說人和白菜至少有72%的相似度。
偷個懶,從暑假回答的某個問題的答案里截出來的……98%相似度應該是指大猩猩98%的基因序列與人類的基因序列一摸一樣,即DNA分子上有98%的核苷酸序列與人類完全相同。這麼理解不知道對不對,還要請專業人士解答~白菜和人的基因相似度多少我也想知道~
全基因組是不大可能有這麼高相似性的。我估計98%是指編碼蛋白基因的有無。實際上對於全基因組,因為存在缺失、重複序列等等,很難給一個簡單的序列相似度。人和白菜就崩提了,動物和植物的基因排布方式都不太一樣。
人和水稻的基因相似度是47%左右;
畢竟維持生命基本活動的那些蛋白質,是所有生物都需要的(合成核糖體呀、轉錄呀、細胞呼吸呀……)我很多年前讀到的文章,忘記了數據來源了,但應該沒記錯,有誰記得可以幫忙說一下嗎?非常感謝。推薦閱讀:
※為什麼男性生殖器是長在兩腿中間而不是頭上或其他地方?
※如何評價《自私的基因》這本書?
※DNA與RNA病毒哪個更有進化優勢?
※昆蟲有偽裝的能力,有些甚至能偽裝成動物,那是否上億年過來了已經有具備偽裝成人類的昆蟲?
※被吃掉毒死才知道有毒的進化意義在哪?讓同類警戒嗎?還是消滅天敵?雙方是怎麼達到平衡?