標籤:

有哪些重大發現是通過生物信息學的方法發現的?

最好有簡要的介紹,以及所使用的方法,能附上論文名或鏈接就更好了


分子鐘和中性學說。

上世紀60年代以前,大家對進化論的認識是,基因突變要麼是好的(被自然選擇留下來),要麼是壞的(被自然選擇淘汰掉)。隨著基因序列數據的慢慢積累(實驗數據也很重要~),開始有人用序列比對來分析不同物種間的同一個基因(ortholog)的序列。Zuckerkandl和Pauling發現,物種間的序列的差異大小總是跟物種分化的時間(由化石證據推算)成正比(即分子鐘)。如果突變是否被接受完全是由自然選擇決定的,那麼我們不應該看到這個現象,而應該看到序列的差異大小與生存環境的差異大小以及自然選擇(種群大的自然選擇強)的強弱成正比。這個發現後來為中性學說的提出(Kimura)作了很好的鋪墊。中性學說指出,基因突變只有少數是好/壞的,大多數是中性的,能否被接受完全是隨機的,因此進化時間越長,隨機積累的差異就越多,所以會有分子鐘的現象。現在在基因型的水平上(與之相對的是表型的水平),大家都已經接受了中性學說。

另外,當年測序和做序列比對可不像今天那麼容易。序列比對的演算法在生物信息學裡面也算是很重要的一塊了,可以說的很多,就不展開了。

參考文獻:

Zuckerkandl, Emile, and Linus Pauling. "Evolutionary divergence and convergence in proteins." Evolving genes and proteins 97 (1965): 97-166.

Kimura, Motoo. The neutral theory of molecular evolution. Cambridge University Press, 1984.

------------------分割線:以下是關於問題和回答的一些個人意見---------------------

  1. 我是做分析,不做實驗的,所以我覺得是「通過生物信息學的方法發現」的東西,做實驗的同僚不一定贊成。
  2. 顯然,離開了實驗數據的生物信息學分析是無本之源,我最多只能說在某種意義上,這個「重大發現」裡面的,比起實驗得到的數據,分析得出的結論相對比較重要。所以在上面的回答中我也強調了,實驗數據也很重要。

  3. 在「生物信息學」的內涵非常廣泛,生物研究中針對序列(DNA,蛋白質),網路(信號通路,蛋白相互作用網路),圖像,等等的分析都能算在裡面,所以基本
    很多發現都是離不開生物信息學的。我的回答只是談到了我自己比較熟悉的序列分析方面。

  4. 心目中什麼才算「重大」:現在很多實驗產出數據量很大的文章(數據量大,必然依賴生物信息學來分析),其結論都是很描述性的(比如說基因組包含幾個基因,
    某個基因在/不在某個通路裡面,某個病跟哪幾個SNP有關……大家都知道會有那麼些東西在那裡,只是不知道具體是什麼)。某種意義上,這就像是在」集郵
    「(語出"All science is either physics or stamp collecting"-Ernest
    Rutherford),沒有什麼理論/概念上的突破,所以應該不算重大。當然你也可以說目前生物學研究的主要目標本身就是「描述」生物系統是怎麼運行
    的,所以描述性的結論也可以很「重大」。我能理解這種觀點(並且請參看上面的第2點),它也有一定道理,只是我認為理論/概念上的突破比之更「重大」而已。我本來打算多列舉幾個的,但基於以上考慮,和本人較窄的知識面,暫時想不到其它重大的發現了……
  5. 生物信息學發展出來的演算法/技術/軟體本身也很重要,不過那些是人設計出來的東西,不算「發現」。


話說分子鐘那篇論文出來的時候,生物信息還沒多少人關注的說,發展的很快呢。

這個問題關注了好久,就 @Philip Yang說的在理,說生物信息沒有重大發現的是因為你們不讀相關方面的文章,對其他領域的應用不夠了解。排名第一的答案說的就是在進化領域的應用,我就直接補充一些相關的例子好了。

前幾年鋪天蓋地的都是禽流感的新聞,2009年 H1N1和2013年的 H7N9鬧得人心惶惶,可是誰知道為什麼禽流感就突然有了傳染給人的能力,而對這個問題的研究和解答就是生物信息給出的結論,再經由實驗驗證的,是典型的生物信息指導實驗設計的結果啊,在整個病毒學領域都是非常重大的發現,也和普通群眾的日常生活息息相關。研究的每一步都是生物信息的範圍,取樣之後 NGS 測序,結合 NCBI 已有的數據,重建系統發育樹,然後追溯病毒基因組的祖先和來源。

首先是 H1N1,研究發表在2012的 nature,幾乎是病毒進化必講的例子。給出文章連接Origins and evolutionary genomics of the 2009 swine-origin H1N1 influenza A epidemic : Article : Nature.這其中最重要的結論就是下面這張圖。圖中右側各種線匯聚到 H1N1 S-OIV 2009 human outbreak,這是說明了2009肆虐的 H1N1型流感的基因組來源,仔細看每一條線的來源,你就能發現 H1N1型禽流感世界上是一個新型的重組病毒,基因組來源涵蓋了 H1N1禽流感,三次重組豬流感和 H3N2人流感病毒。這種新型病毒並不是因為一些基因突變產生的,而是竟有『漫長』的進化(肉眼可見的進化事件)逐步獲得了感染人的能力,而這種能力是經由人類病毒賦予的。

然後再說H7N9,這個就發生在國內。文章還是發表在 nature,給出鏈接http://www.nature.com/nature/journal/v502/n7470/full/nature12515.html。要是感覺上面那個可能是運氣,我就再給一個相同方法的研究。下圖依舊是最關鍵的結論。結論就是2013年的 H7N9為什麼能傳染給人,這種新型病毒經由 H9N2和 H7N7重組獲得了傳染人的能力。

說完這兩個,再說一個在生物進化上的應用,都是極其重要的研究結果,其中不乏領域內里程碑式的研究。材料是古生物樣本的線粒體 DNA,沒錯就是當年說線粒體夏娃的那種方法。對象是驢,沒錯就是那種好吃又蠢萌蠢萌的生物,要回答的問題就是全世界的驢都是從哪裡來的,也就是馴化的驢的起源。重要的文章有三篇,第一篇最重要是論述的開始,發表在2004年的 science。說的就是一件事情,全世界的家驢都是來自埃及的兩個馴化種,注意,是全世界哦!也就是說按祖先說,我們看到的家驢都是『進口貨』。結論的核心就是下面這張挫挫的圖片,結論很簡單,就是現在的家驢是經由努比亞野驢和一支索馬利亞野驢的親戚野驢馴化得來,所以馴化的家驢一開始就有兩個血統,而馴化發生在哪裡?埃及,沒錯,古埃及人馴化的。而這兩種野驢都是非洲野驢的後代。

作者跑了51個國家,收集了各國家驢的數據,然後測序線粒體 DNA,繪製了上圖。緊接著有研究者在上圖的基礎上進一步擴大的數據量,使家驢非洲起源更加可靠。他們文章鏈接在這裡http://rspb.royalsocietypublishing.org/content/278/1702/50.long,結論也是一張圖片,就是對上圖的補充。最重要的補充是,新的數據不但有現代家驢的線粒體 DNA,還有古埃及出土的樣本 DNA。下圖結論於上圖結論完全一致,現代家驢的起源在非洲,有兩種野驢被馴化了。

那麼亞洲也有野驢啊,古代中國是農業大國,我們也出土過驢的化石,有沒有可能自己馴化野驢?於是國內的研究者,在上圖的基礎上進一步加入了更多,注意是更多的,中國家驢樣本,結論在這裡『Mitochondrial DNA diversity and population structure of four Chinese donkey breeds.』網站維護了,暫時木有圖片。不過結論很簡單,就是進一步支持了上兩張圖的結果,中國的家驢都是『進口貨』。所以你看,這些都是生物信息分析的重要結論,在各自的領域都有舉足輕重的地位。你要是覺得在生物信息領域做不出什麼重要結論,我可以明確的告訴你,小朋友,你還沒入行。你要是說這都是實驗支持的,那我只能說有本事你做完 PCR 不要照片啊!


作為一個只做過一年多生物信息助研的人隨便提一句:目前主流的DNA/RNA測序方法沒有生物信息學做最後的assemble都是做不出結果的。現階段的主流測序原理是將原DNA/RNA擴增以後打成碎片,從每個碎片的頭尾各測N個鹼基對,然後由生物信息的方法再將這些片段組合起來。(這是因為目前的技術,如果直接測量長DNA片段,誤差率實在是太高,只有開頭幾十對測量的比較可信)。所以不誇張的說,對DNA序列的研究都是依賴於生物信息的。


lncRNA。通過基因組測序,發現翻譯蛋白質的mRNA的數量遠少於被轉錄的mRNA,曾經被當為轉錄的副產物,而今卻發現有及其複雜多樣的調控模式與能力。目前逐漸變為基因組學的研究熱點。


生物信息作為新興學科,這幾年隨著組學的發展而火熱起來。提問者的問題是:「有哪些重大發現是通過生物信息學的方法發現的」。但是生物信息的定義可以不同,而且很廣泛。甚至生物信息這個辭彙都是很晚才出現的。

「生物信息」(bioinformatics)一詞的出現:

1970年Paulien Hogeweg和Ben Hesper提出了單詞」bioinformatics「為了指在生物系統中研究信息的過程,這個定義與生物物理生物化學類似。

」Paulien Hogeweg and Ben Hesper coined the term bioinformatics in 1970 to refer to the study of information processes in biotic systems. This definition placed bioinformatics as a field parallel to biophysics (the study of physical processes in biological systems) or biochemistry (the study of chemical processes in biological systems)。「

參加維基百科:http://en.wikipedia.org/wiki/Bioinformatics#History

生物信息之前的生物信息

生物信息一詞出現之前,人們就已經開始用計算的方法、定量的方法,研究生物學問題,甚至我們可以說孟德爾遺傳定量就是定量研究生物學問題的。

生物信息的重大事件

根據論文」Early bioinformatics: the birth of a discipline--a personal view.「(http://www.ncbi.nlm.nih.gov/pubmed/14630646),作者給出了他認為的一些重大事件,這裡列出給大家參考。


近些年印象比較深刻的就是ABA受體的發現,幾個組用不同的組學方法同時獨立地解出來這個通路,這個是用傳統方法沒辦法做到的,因為ABA受體家族的蛋白太多了。

早些時間大多是用比較精妙的統計方法解決問題,比如德爾布呂克實驗


題主的提問如果指的是單純利用生信方法發現或者解決重大生物學的問題,我認為是不確切的提問。很簡單,目前任何比較拿得出手的發現(好到可以用discover來描述),都不僅僅是生物信息的方法得到的,但同時,如果不運用生物信息學的方法進行預測或者篩選,當今很多的發現還應該是沒有被發現的。


Carl woese的3界說啊。根本改變了生物分類,應該都進高中教材了吧。

本來把生物分為真核與原核,Carl Woese在70年代通過比較16S rRNA序列發現,原核生物可以再分為古生菌 (Archaea)和真細菌(Eubacteria),所以所有生物應該分做真核生物,古生菌和真細菌三界。


基本上只靠生物信息學不足以產生重大的發現,但生命科學的研究中少不了生物信息學的手段。


覺得不能過於誇大生物信息的作用,也不能否認生物信息學方法和實驗相結合做出的巨大貢獻。

生信分析和實驗分析的本質是一樣的,就是對實驗產生的數據進行定性定量的分析,再進一步的驗證,得到相對更有力的結論。單獨把生物信息拿出來,刨除實驗說生物信息的巨大發現是不行的。

舉一個簡單的例子,2009年後火了很大一陣的TALEN基因組編輯技術是兩篇背靠背的文章,一個用的實驗的方法,一個用的生物信息學的方法,發現TAL蛋白能夠特異性的結合DNA序列。後面的各種基因編輯文章,以及蛋白結構解析。後面Crisper技術的發現,取代了TALEN,這是後話。人類基因組計劃,蛋白組計劃,癌症基因組計劃,等等各種高通量的計劃,這些都不能說絕對是生物信息學的發現,但可以說生物信息學起到了不可替代的作用。

生物信息學已經滲透到多數生物醫學的研究中,從遺傳,表觀遺傳,分子生物學,進化生物學,結構生物學等等基礎領域。也迅速的應用於動植物育種,疾病診斷,藥物的研發中。換句話來說,一切需要高通量的來解決生物學問題的時候,生物信息學就要出來大顯身手了。生物+互聯網怎麼玩?靠生物信息學!

作為一個生物領域最靈活,最多態,最能包容,動態變化的方向(參加生信方面的會議最大的感受就是做生物信息的人背景迥異,學物理的,學計算機的,做實驗的,學進化的都在做自己的生物信息學),相信會有一天,基本的生物信息學技能包括編程,以及常規的測序數據分析會是每個生物學研究人員的必備技能。到那時候,大家就不會爭論生物信息學產生了什麼重大的發現,而是覺得自己已經離不開它,不願意爭論實驗和生信到底哪個最重要這樣的話題。

所以,擁抱未來,擁抱生物信息學!


我們應該考慮廣義的生物信息。任何實驗數據都是我們收集到的信息,而從實驗結果到生物學結論往往需要利用統計學的知識對數據進行有效的理解。孟德尓發現3比1的分離比,摩爾根發現第三定律都離不開對數據的解讀。長、短非編碼RNA的發現也離不開對數據的分析。如果把生物信息學理解成研究genetics、genomics和complex disease的工具學科而不是一門專門的科學,就很容易意識到很多重大的生物學知識的發現離不來生物信息學。


一門穿馬甲研究問題的手段


生物信息作為新興學科,這幾年隨著組學的發展而火熱起來。提問者的問題是:「有哪些重大發現是通過生物信息學的方法發現的」。但是生物信息的定義可以不同,而且很廣泛。甚至生物信息這個辭彙都是很晚才出現的。

「生物信息」(bioinformatics)一詞的出現:

1970年Paulien Hogeweg和Ben Hesper提出了單詞」bioinformatics「為了指在生物系統中研究信息的過程,這個定義與生物物理生物化學類似。

」Paulien Hogeweg and Ben Hesper coined the term bioinformatics in 1970 to refer to the study of information processes in biotic systems. This definition placed bioinformatics as a field parallel tobiophysics (the study of physical processes in biological systems) or biochemistry (the study of chemical processes in biological systems)。「

參加維基百科:http://en.wikipedia.org/wiki/Bioinformatics#History

生物信息之前的生物信息

生物信息一詞出現之前,人們就已經開始用計算的方法、定量的方法,研究生物學問題,甚至我們可以說孟德爾遺傳定量就是定量研究生物學問題的。

生物信息的重大事件

根據論文」Early bioinformatics: the birth of a discipline--a personal view.「(http://www.ncbi.nlm.nih.gov/pubmed/14630646),作者給出了他認為的一些重大事件,這裡列出給大家參考。


關注期刊TCBB,BIOINFOMATICS,BMC,NATURE,SCIENCE


推薦閱讀:

生物信息學本科生轉到互聯網數據挖掘領域是否可行?

TAG:生物信息學 |