新DNA百科全書試圖繪製出整個人類基因功能圖
(右邊)是整個人類基因組中基因組件間大致可視化網路聯繫圖,而(左邊)是一個較小、按照層級結構組織的子集。圖片:格斯坦等人/自然
大量的新數據以前所未有的細節繪製出人類基因圖。有些科學家把這個裡程牘式成就與1999年的基因測序的成就進行相提並論。
人類第一次對成千上萬的新基因片段進行編製目錄,而且都包含在這些數據中。九月四日發表在《自然》和《生物雜誌》的三十頁論文對為些數據進行了描述。論文也初步描述了如何將這些組件結合在一起。
當然,如果以史為鑒的話,預期應該降低。對基因組了解越多,最終證明它越複雜——這是一座似乎每向上走一步就更高的山。不過,該視圖值得讚賞。
「最初遺傳學只關注1%的基因。」耶魯大學生物信息學家馬克·格斯坦說道。他所指的是遺傳學家早期關注為蛋白質編碼的基因。這僅僅代表基因組的無數組件中一小部分。『我們』正在關注那99%的基因。」
格斯坦是數以百計參與編碼或編製DNA組件百科全書的研究人員之一。這是一個2003年推出的大規模合作研究,其目的就是給人類所有基因片段進行分類。
與給建議的百科全書編碼相比,人類基因組計劃的1999年大致序列草圖,甚至其2003年版本,都是我們最明顯特徵的記錄式草圖。
無法形成給蛋白質編碼的分子大部分被忽視了,部分原因不僅是它們被認為無關緊要,而且因為研究它們需要新的手段和新技術。正像某人知道箱子里裝滿五金工具,但不清楚裡面是否有釘子、螺絲或其它東西一樣,科學家懂得基因有很多其它分子,但不知道它們是什麼分子。
自1999年以來,雖然科學家描繪了很多基因組的特徵,但大多數基因的特徵還沒有描述。「人類基因組計劃對生命藍圖進行了編碼,但是差不多三十億鹼基的絕大部分的功能仍然是未知數,」在《自然》共同介紹新研究的編碼負責人這樣寫的。
未知基本信息那麼多,這也許有助於解釋在進入基因時代十多年,為什麼在很多情況下取得的進步如些令人沮喪的緩慢,遺傳學只零碎地探究一些複雜疾病和人類發展,不過現在至少的更多的基男因片段。
在編碼數據中有成千上萬稱為假基因、化石基因和死去的基因的新確認結構。這些基因看起來像編碼蛋白質基因,但起其他功能作用。有一些新的RNA(基因組的攜帶分子)和一些無法攜帶信的RNA。還有一些充當攜帶信息的RNA的假基因。
有很多轉錄因子、蛋白質和重組的基本原則。其中蛋白質把這些碎片拼接起來,或每時每刻編排基因活動。也有多層次的所謂的表觀遺傳信息。這些表觀遺傳信息描述基因活動如何調製以及在不同類型的細胞中如何變化。
對每個類別組件來說,新的編碼數據可以比已知的基因片段增加好幾倍。編碼研究人員估計,一般功能現在可以歸結於整整80%的基因組。
其他威研究人員可以在自己的工作中使用所有這些新信息作為參照物,進行新實驗或把現成的信息應用到一個新的環境中。作為一個例子,編碼研究人員用新的眼光來看待DNA變異。在成千上萬人基因圖中,我們可以在統計學上發現羅恩病的關係。在這種疾病中,身體的免疾系統攻擊自己的胃腸道。
DNA變種原來似乎沒有共同的模式或明顯的功能。但是通過一種編碼鏡可以看到,它們聚集在部分基因組中。而這些部分基因組影響對自體免疫反應至關重要的基因活性。
一片染色體(基因組結構材料)的三維效果圖,圖片:Maxim Imakaev, Leonid Mirny 和Job Dekker
這些部分基因組正常情況下如何相互作用,這仍然是個謎。了解它們也是編碼的一個目標。了解這些相互作用也許會比編寫這些基因組件清單更大的任務。
「大多數認為基因組是以線性排列」三十億個變體排列成一條直線,「領導編碼網路研究工作的格斯坦說,"那是傳統的看法,我的不是一維的觀點,而是它們如何相互作用的二維觀點(折線圖)。」
另一個相關的挑戰是了解基因組年代三維形狀。染色體遠非以直線排列,它摺疊在一個無比複雜的分形圖案中。而這些形狀似乎形成網路狀的相互作用。
「每個基因周圍存在無窮無盡的調控組件。它們是無所不在。只有25,000種基因,但可能有一百多萬種調控組件,」在馬塞諸塞州大學醫學院從事基因組結構描述編碼的分子生物物理學家Job Dekker說。
他繼續說:「這不只是一種接觸一種調控組件的基因,它能能接觸而且與所有它們組件發生相互作用。它必定涉及到一個極其複雜的三維結構。在這基礎上,色體形狀變成了令人難以置信的動態、複雜和細胞特定類型。」
Dekker仿效格斯坦早期所說的話,但是以相反的方式說的。他說,迄今為止,編碼只描述1%基因組的三維結構,但還有99%基因組有待研究。
美國人類基因學會前主席、約翰斯·霍普金斯大學遺傳學家Aravinda Chakravarti警告,不要基期望從編碼數據中太快、太多獲得成果。論文開始展示我們的基因組的工作,但這些是初始步驟,是必要但並不完整,」他在一封電子郵這樣寫道。
"我深信這些基因圖會有助於我們更好了解基因調控,但這會需要更多的工作。「Chakravarti這樣寫。「要從基因排序的讀數孜變轉向了解它們如何引發疾病,這也需要更多的工作。」他說。
未知的東西那麼多,這是令人生畏的。並且提出了基因組的複雜性是否可能證明是無法逾越的問題。「這的確是一個挑戰,」Dekker說:「不過這是可以認識的。」
推薦閱讀:
※臟腑結構與功能(圖文並茂)
※使用 Bash shell腳本進行功能測試
※輸卵管通但功能差 也會不孕
※唱紅的功能十分有限-中國選舉與治理網
※你被相機這5個功能騙了嗎?