標籤:

人體30億個鹼基對的基因組,容量有多少兆?

每個鹼基對有2個鹼基,所以共有60億個鹼基。每個鹼基的容量是2比特,8比特等於1位元組,所以容量應該是60億x2/8/1000/1000=1500M。

可是為什麼我看到的所以結果都是750M呢,少了1/2?


每個鹼基對有2個鹼基,所以共有60億個鹼基。

不可以這麼算,因為鹼基配對是有原則的,A對T,C對G。確定了一邊的鹼基,另一邊的鹼基不會有其他可能。所以不能算兩個。

如果鹼基對可以隨便配,那才可以算兩個。


首先,你不用存儲鹼基對。

然後,真實的完成圖,存儲的東西遠遠多於序列本身。你起碼得把蛋白注釋出來吧?這就得存儲一堆位置坐標、注釋文本等等。然後,作為高等真核生物,有N多的調控序列、非編碼RNA基因,這又是一大堆注釋。你要是存成文件,這怎麼也得是序列本身的三倍以上。


這個問題主要是涉及一些基礎的分子生物學和生物信息學的相關概念,我就大概梳理下吧,細節都忘得差不多了。

1. 測序的時候,理論上(注意是理論上,實踐中不同目的不同方法做法都不相同)是不需要測出一對鹼基的,既然一個鹼基對是互補配對(A-T,C-G),那知道一個就可以了嘛,記錄時也是記錄一個,序列數據文件經常描述單鏈加上方向(如3-5)。

2 你說的多少M,並不是對容量的描述,是對序列長度(字元串長度)的描述!!! 區分這個很重要,容量因為有多次摺疊,遠遠超過M級別的,我在這裡把容量近似地理解為信息量。

3 我們一般說的人類基因組大小3G,是指對每個染色體長度總和的描述,注意是長度;這也就解釋了為什麼你說的是60億個鹼基, 雙鏈, 3G X 2 = 6G。

4 為什麼你看到的保存一個人類基因組的數據文件大小是750M ? 3G的長度,一個位置有4種或5種可能性(A,T,C,G,N),也就是說如果你用鹼基的字母代碼來存儲它,而不另外編碼,那麼一個鹼基佔用的是一個位元組(一個字元長度),而不是一個bit; 但實踐中,我們大多採用編碼的形式存儲,即將 ATCG編碼為00,01,10,11,這樣一個位元組可以存儲4個鹼基,4 X 750M = 3G

關於DNA序列數據編碼,有很多人在研究,一些非主流的方法確實可以減少數據文件大小,但目前並未有本質性的突破,而且大多數方法的目的是解決永久存儲的序列文件,也就是說你編碼和解碼都需要耗時很久,帶來的性價比並不高,只適合於大量永久存儲的序列數據;如果你天天都用的參考序列,實踐中都是將比如人的3G的數據直接放在大型機的內存中, 誰要誰訪問。 這是一個時間和空間的置換問題,目前並不存在任何一種可以同時獲得短時間和低空間的方法。

更新:

具體的序列數據文件,可以參考:

NCBI http://ncbi.nlm.nih.gov

Ensembl 人的基因組數據 Ensembl genome browser 75: Homo sapiens

UCSC genome上的hg19 Human (Homo sapiens) Genome Browser Gateway

Amazon AWS上的公共數據中千人數據 1000 Genomes Project and AWS


總共3G。一般做全基因組測序需要30-40x的覆蓋度(保證一定的測序質量),因此測序一次全基因組得到的數據量將有90-120G


高票答案關於 3G 的解釋,我覺得有問題。

不應該因為 00,01,10,11 有四種,所以就把 750M 乘以 4 得到 3G。這個運算是沒有意義的,計算機不是這樣存儲數據的。

30億鹼基對,只需記錄單鏈:

  • 按計算機二進位的方法記錄:750MB

  • 按純文本記錄:3GB

詳細來說

按計算機二進位記錄:

因為一共只有 ATCG 四種情況(可以轉換成計算機的 00、01、10、11),所以每一個鹼基,要用 2 位二進位(2 個 bits)記錄。

30億 x 2 = 60億bits

然後就是單位換算。計算機里,我們通常說的 KB、MB、GB 都是指「大B」, 1B = 8bits。

60億bits / 8 = 750,000,000 B = 750 MB

按純文本記錄:

上面二進位的文件,機器能讀,而且體積小,傳輸用它就可以了,但人是不方便閱讀的。

人能讀的是 ASCII 碼,是直接記錄「A」、「T」、「C」、「G」這樣的字元。

一個 ASCII 字元,大小是 1B。

所以,如果按純文本保存 30億 個字母,

30億字母 = 3,000,000,000 B = 3 GB


我想問下,hg19的外顯子組容量有多大?這個現在有沒有權威的測序證據?


也就是不管人的智能演算法多麼複雜,不會超過3Gbit的承載數據。何況其中很多部分控制的是某些身體器官的分化。


推薦閱讀:

北大提升二代測序精度的新方法的具體原理是什麼?有什麼創新點?
為什麼 Illumina 最新測序儀能將全基因組測序價格降至 1000 美元?
第二代基因測序產品研發主要面臨哪些問題?
華大基因到底有多牛?

TAG:基因 | DNA測序 |