基因組測序為什麼沒完沒了?


目前已有序列數據(並不是完整基因組數據)的動物分布:

其實很多物種的基因組還沒測,目前不存在測了又測,所以這個問題我把範圍縮減在:為何人的基因組測了又測上。

首先要明白,一個基因組拼完後,得到結果的質量,就和聖鬥士一樣,是分等級的。當然因為逼格比較高,所以最高是白金級的,青銅什麼的就不能算了。(目前一千美元能測的,應該算鋼鐵聖鬥士。。。)

GRCh38,也就是目前科研上使用的最新版本的人參考基因組,上圖看上去數據很完美,但在指導醫療實踐上是有問題的,因為它是來源於混合樣本,並不能反映任何一個人的單倍型基因組。比如,MAPT(微管相關	au蛋白)區域,與神經退行性疾病(e.g.帕金森)高度相關的區域,在這種關鍵區域上,混合樣本測得的DNA序列沒什麼意義。

所以,現在老外搞了個「精準參考基因組」計劃(中文名我瞎起的,英文名叫

Reference Genomes Improvement Project)。選取有代表性的人種:

計劃採用的路線是用PacBio數據de novo組裝,配合BioNano Irys光學圖譜來搭腳手架。最後用細菌人工染色體+PacBio來補洞。

這裡稍微解釋下,為何測高質量的個人基因組需要de novo,而不是resequencing:因為每個人各自都攜帶有自身獨特的、正常的結構變異,使用resequencing也就是比對現成的參考基因組,那麼這部分信息毫無疑問會丟失掉。這也是結構變異相關研究比較難做的地方,比如研究癌症,那麼最好的對照不是其他正常人,而是自身的正常組織,比如癌與癌旁。

參考資料:

The evolution of animal genomes

Project - The Elizabeth H. and James S. McDonnell III Genome Institute at Washington University

-------------------------------------------------更新---------------------------------------------------------------

Q: de novo 是不是更貴?

價格由選用的技術與所需數據量決定。當然de novo對數據質量、數量、讀長、算力都要求更高。

可以把測序拼基因組當成是拼圖遊戲,有參考基因組,就是拼圖的時候,你已經知道最後要拼成的圖是啥樣子了,也就是可以大致確定手上的碎片是在哪個位置。而無參考基因組,就是拼的時候,並不知道最後結果是什麼樣子。

拼圖遊戲的難點在於,圖形是否有很多碎片都是同一個樣子的(一個基因組是否有許多短重複序列),如果這些碎片完全相同(測序儀讀長小於重複序列長度時),你是無法將這些碎片唯一定位到最後的拼圖裡的。


我認為這裡所說測序應該分成幾部分:研究性測序;應用性測序


研究性測序:比如某個物種的基因組圖譜,針對某個疾病的群體研究等


應用性測序:比如測個人基因組對疾病進行預測


為什麼一直測,應該有下面幾個原因:


1. 首先是遺傳信息的決定作用。所有表型都是遺傳和環境的共同作用,但遺傳是根本,環境是起影響作用;遺傳信息里,作為大多數物種遺傳物質的DNA當然應該首要關注。所以要測基因組。地球上如此多的物種,目前尚有大量物種未被測序,所以還一直在測啊測(當然,研究目的就有譬如:開發物種本身經濟價值,進化研究等)


2. 同一物種的個體,是有異質性,也就是有個體差異的,正因為這種差異,才會有進化,對有經濟價值的物種也才有育種的可能。所以,這就要對同一物種不同個體(即群體)進行測序,這也就是為什麼測了5個人後,還測百人,測千人,現在還要測百萬人


3. 健康診斷,目前已經有分子診斷、基因診斷,而基因組診斷則是更全面,更本質的診斷(當然目前還有一系列問題沒有解決),所以將來會出現人人基因組的局面,那時會是:每個人都在測啊測。


當然,還有一些技術上的原因,開始以為測10個基因組就可以解決問題了,但現在發現測100個都還不夠,所以就測了一個又一個。

個人理解,請各位不吝指教


1、不同物種要進行新的測序,現在已測序的物種相當來說還不算多吧

2、對同一個物種重測序,我想你要問的是這個吧。因為即使同一個物種,比如人,個體間還是有差異的,不然為什麼人和人之間不一樣呢?這些差異在genome上的表現有SNPs、indel(插入缺失)、SV(結構變異)、CNV(拷貝數變異)。這些差異有些導致的是正常的人之間的差異,比如不同的膚色不同的體格,有些則導致的是基因疾病,具體例子我就不多說了,這個網上一搜一大把。如果不進行重測序,你怎麼能檢測到這些差異呢

話說回來,物種的單個體測序只是為了得到該物種genome的一個reference,真正有實際意義有研究價值的是後面的重測序,因為有對比有差異才能更好的知道基因的作用


因為有這麼多的生物,每個生物體的基因組都不一樣。再加上表觀遺傳學之類的東西,相同的DNA,最終的結果也不一樣,於是就測啊,測啊~~~


對於高等生物,比如人類,一些個體高度差異的基因片段有重大的科研與醫療價值。比如MHC、TCR/BCR等等。

對於微生物,基因組發生變化就像吃飯喝水一樣尋常。這些變化經常與致病力的變化相關,比如:

  • 為啥有些禽流感病毒能感染人?
  • 為啥有些流感病毒死亡率個位數,有些死亡率兩位數?
  • 為啥中了一些大腸桿菌之後拉血,中了另一些水瀉,中了另一些腦炎?

另外,很多現有的基因組,其參考序列的質量是非常可疑的,特別是複雜程度高的區域,比如TCR座位。如果你需要研究這些,那麼幾乎只能親自重新擼一遍。

所以,騷年,來一發三代吧。。。


補充一下@王毅 和@劉晶星 的答案:

除了最簡單的DNA層面的測序,還有其他層面的(比如RNA,比如 DNA 甲基化)的測序。而這些測序的結果是根據時間和空間的不同而隨時發生變化的。在不同條件(包括時間和空間上)對他們進行測序,能夠讓我們更好的了解到作用機制。

另外,在單個基因組的層面上,除了整個基因組的測序,還有選擇性的測序,比如前面提到的SNP, 都可以算是選擇性的測序。所以你也可以看到同一個人測不同次數的情況。

在非單個基因組的層面上,值得一提的有Metagenome(宏基因組),是直接把環境里拿來的sample拿來測序和還原。站在基因組的角度上來看生物多樣性。這也是非常有趣的。

總之,測序是了解生命信息的一種非常好的工具。既然工具好,那麼見得多也就不奇怪了。


按照我個人的理解,對於某個物種來說,只進行一次測序,並不能準確反應這個物種的基因組結構,理由很簡單:就算不考慮誤差,個體之間也有差異,而且某些種群也處在不斷進化的過程中,其基因頻率會改變。所以需要不斷重測序,使數據更加準確。


原因好多啊。

先說說技術上的。

測序技術目前大概有三代,速度一代比一代快,精度也是越來越高,但是都不能一次測很長的片段,大概測個500bp(鹼基對)就不行了。所以在大規模測序的時候,要把大片段分成小片段測。一個大家比較熟悉的方法是鳥槍法,就是隨機給它打斷,測好很多很多小片段以後,再根據小片段兩段和其他片段有重複的部分把小片段拼接起來。

大概這個樣子

這麼搞會有如下幾個問題:

1、 不是所有的小片段都能被測到的,這就導致一個基因組裡不是所有的鹼基都能被測到。關於這個有一個公式:

P0表示任何一個鹼基不能被測到的概率,e就是自然常數,L表示每個小片段的長度,N表示測的片段數,G表示整個基因組的大小。LN/G整體稱為測序深度,就是你把基因組來回測了多少次。

那麼如果我們只測一次的話

P0=e^-1=0.3678

相當於平均有36%的鹼基沒有被覆蓋到,這不是白測嘛。那怎麼辦呢?只能不斷增加測序深度,也就是題主說的沒完沒了地測。

2、基因組裡有很多重複的序列,其中有一類是長度很短,但是重複次數非常多的重複,就像ATATATATATATATATATAT……這樣,可以一下重複幾千個。那麼在拼接片段的時候就會出現很大的問題,比如兩個片段,一個是AGGCATAT,一個是ATATATAT,這你怎麼拼呢,拼成AGGCATATATAT,還是AGGCATATATATAT,這樣的重複序列一多,計算機就不會拼了。

染色體大家都知道是這樣的

我隨便找的一個結構比較清晰的圖。

染色體中間有個著絲粒(centromere),兩端有兩段結構叫端粒,大家注意看著絲粒附近和端粒部分是橙色的,這塊我們叫異染色質(heterochromatin),它就是我剛才說的重複序列很多的部分。所以你別看人類基因組計劃說已經完成草圖了,這兩塊地方基本沒測。

當然這些重複序列裡面不會藏著太多基因,所以大家也不是那麼迫切想去測它。

3、測序是有準確度的,測每一個鹼基都有可能出錯,這個概率在人類基因組計劃時代還挺高的,大概1%吧,第二代測序在2010年的錯誤率大概是0.001%,現在的第三代更好一些了,但是還是會出錯的。

要知道一個幾千bp的基因,產生一個點突變可能就會導致致死遺傳病,你一下給測錯1%還得了?但是這個問題也沒有什麼太好的解決辦法,只能重複測很多次,重複測兩次某一個位點都被測錯的概率就是(1%)^2=0.001%(這是理想情況,實際上有一些位點更容易被測錯)

非技術上的原因就更多了。

人類基因組計劃時代,科學家還根本沒想到除了鹼基序列,其上的修飾也會對基因功能有至關重要的作用。所以當然當年在測人類基因組的時候,表觀遺傳學修飾這些東西就沒有測。

後來發現這東西太重要了,甲基化的胞嘧啶一度被稱為第五種鹼基,不測不行,只好重新測咯。

那過幾年再發現乙醯化,再來一輪。

如果再過幾年再發現個什麼十六烷化,還得再來。

更要命的是,這些修飾全都是動態的,在細胞周期的不同時期不同位點的甲基化程度可能變得很厲害。這就要用到更先進的手段了。

歸根結底我覺得還是當年的科學家太樂觀,以為知道了鹼基序列就知道了一切,沒想到拿到鹼基序列後怎麼分析一頭霧水(所以有了生物信息學),又不斷發現別的地方還有遺傳信息,於是只好不斷修修補補,就顯得沒完沒了的。

話說回來,這不是好事嘛,如果沒有這些新發現,多少生物狗又要轉行了。


來個打油的吧。

地球物種千千萬,生命個個自成型。

群體組織和細胞,時時處處變不定。

農林牧漁需求廣,個性醫療顯威風。

博大世界趣事多,測序永遠不會停。


題主知道單細胞測序嗎。。


你說的應該是重測序吧,雖然已經得到好多物種的參考基因組了,但是生物個體間差異的存在是由於每個基因組都是不同的,再者對於基因組本身、基因組和蛋白質、基因組影響性狀等方面的機制還不是很清晰,需要大量的數據進行研究,總結規律,進行論證。


因為每個人的基因組序列都不一樣。這些不同造成了每個人的外貌,性格,體質,和疾病的易感性等等生物學特徵都不同。了解這些不同對每個人都有意義。而這個世界上,還沒有幾個人知道自己全部的基因組序列。


基因測序, 適可而止, 否則就是誤區, 原因有:

1, 基因的修飾

2, 基因的整體效應

3, 基因的個體背景

4,基因間相互作用。

5 , 基因的時效性

等等, 都不是簡單的測序可以解決的, 國內華大的方向有誤, 不推崇


因為他們始終不明白,在不了解源數據結構的情況下,把編譯後二進位的東西還原成源碼,基本是不可能的……


因為遠沒有飽和啊。

理想的研究狀態 每個生物樣品都要測序,且要3個以上的重複。現在許多物種都只測了參考基因組,更多的物種都沒測完,更別說你想一次實驗幾百個上千的樣品單獨測序了。

這還只是基因組DNA水平上的測序。甲基化,轉錄組,蛋白組,小RNA各種各樣都要測序。


父親因為肺癌在華大做的508個的測序。價格高,無卵用。


測序需要改進的太多,切割、批裝、改進複製工具、綜合其他顯微技術,,,五年內還會有大的進步,不信等著瞧


任何東西都是有完沒完的吧,這些東西隨著科技的進步都在不斷的發展之中!


極多,差異,變異


因為基因測序技術已經是個工具了,用在各種認知、改性和診斷中。

所有工具在被替代前都是這樣,扳手螺絲多少年了,還不是沒完沒了的在用。


推薦閱讀:

計算機領域從事生物信息的牛人有哪些?
生物信息學本科階段應該掌握哪些技能知識?
為什麼同一個物種的基因組裡,有的基因序列進化快,有的則進化慢?
本人普通一本生物製藥,實在沒有做實驗的天賦,想考生物信息研究生,不知生信工作適合女生不,求業內人建議?
從事生物信息學科研,需要學習哪些cs知識,語言和技能? 系統生物學是什麼,和生信什麼關係?

TAG:DNA測序 | 生物信息學 |