生物信息學有哪些經典的應用實例?


舊文重發: 《介紹國外幾位生物信息學家(10)~~譯後感》,這裡的實例可能有用。

———————————————————————————————————

已有 5241 次閱讀 2011-5-26 12:48 |個人分類:生物信息|系統分類:科研筆記|關鍵詞:生物信息學 推薦到群組

我化了一些時間翻譯學習了Jones和Pevzner著的Introduction to Bioinformatics Algorithms一書中九位著名生物信息學家的介紹,收穫很多,這裡寫下些心得體會,留下個記錄,也希望給同道留些參考。

這本書是生物信息學演算法導論,該書成於2004年,書中對那時生物信息學的常用演算法進行了簡介,是生物信息學演算法入門非常好的教科書,書中除了演算法介紹並配有習題。我在博士後的導師推薦作為研究生課程的教材之一,所以我也在這裡想對有志於生物信息學研究的同道推薦這本書,已有的中文譯本見我的博文系列(0)

很自然的,這裡選擇的生物信息學家都偏重於演算法設計,介紹的生物信息學家只是非常多的傑出的生物信息學家的代表,同時是為書中各個章節服務的(見下表)。這些科學家是生物信息初創時期做過重要貢獻的科學家,有些已經不是活躍的生物信息學家,但這些文章對研究生物信息發展的歷史很有幫助,對我等向前輩學人學習也有很多真知灼見。由於有些的介紹可能已時過境遷,這裡給出這些科學家當前在網路上的主頁,供大家參考。我在每篇博文的題頭也做了鏈接。

表一:本系列介紹的生物學家:

演算法和複雜性 Richard Karp

http://www.cs.berkeley.edu/~karp/

分子生物學入門 Russel F. Doolittle

http://biology.ucsd.edu/faculty/doolittle.html

全面查找 Gary Stormo

http://ural.wustl.edu/index.html

貪婪演算法 David Sankoff

http://albuquerque.bioinformatics.uottawa.ca/

動態規劃演算法 Michael Waterman

http://www.cmb.usc.edu/people/msw/Waterman.html

分治法 Web Miller

http://www.bx.psu.edu/miller_lab/

組合模式匹配 Gene Myers

http://research.janelia.org/myers/

圖演算法,聚類和樹 Ron Shamir

http://www.math.tau.ac.il/~rshamir/

隱馬模型 David Haussler

http://www.cbse.ucsc.edu/people/haussler

這一系列文章的寫作也是很值得我學習的。在對每個科學家的生平介紹之後,作者選取了科學家最著名的貢獻若干,以小見大,把他們的治學成績和理念進行了介紹。文章行雲流水,穿插了作者的語言和被介紹者的自我介紹,生動活潑地把一系列重大學術發現的背後的故事展現在讀者面前。有很多名句值得我輩學習體味,如介紹Doolittle教授時的「這個發現花費了我們五年零二十分鐘」,介紹Shamir教授時,「靈感只出現在法律圖書館的凌晨三點時」。

從這些前輩生物信息學家的成就中,我輩可以學習的很多,從科研基礎,導師選取,科研興趣,科研選題,概念創新,科學發現,科研協作,科研競爭,獨立研究,課題申請,工作態度到科研與生活的關係等等。

這些前輩科學家都有堅實的科研基礎。在涉足生物信息學之前,Karp和Shamir是著名的演算法學家,Waterman和Sankoff是數學專家,Stormo是物理學士,Miller、Myers和Haussler是計算機科學專家, Doolittle是分子生物學專家。這正顯示了Stormo的觀點「跨學科間的策略在生物信息中特別有用」,成名的生物信息學家大都是跨學科研究的高手。

對導師的選取,Haussler的例子給我輩以啟迪。他發現Andrzej Ehrenfeucht是這個領域的領軍人物,所以就選擇了他作為自己的博士導師,當然我推斷這個選擇的成功也應該很大程度決定於Haussler在本科的時候的數學基礎和在Science文章上的成功。

這些生物信息學家都有廣泛的興趣。如Stormo、Myers和Haussler正是通過Ehrenfeucht組織的興趣廣泛的討論組,最終走向了生物信息學;Myers對科幻作品的著迷把他引向了科學研究;Doolittle在分子生物學研究的業餘時間裡學習計算機編程,使他做出了重要的工作;Shamir一直在幾個領域的交叉進行工作等等。

對於科研選題,Haussler的觀點給我不少啟發。「主要的科學問題成熟於特定的時間。在這之前,它是不可及的,因為解決它們的基礎還沒有打好。而在這之後,它們就不再重要了,因為問題的核心已經被解決了。但是,認識一個科學問題是否成熟來解決是一種非常難的藝術。廣泛的關注十分有幫助,還需要有很多的運氣。」

概念的創新在生物信息研究中,有很大的推進作用。如Stormo發明的位置加權矩陣(position weight matrices),比共有序列(concensus sequence)的方法更貼近基因調控位點的生物學描述,新的概念提出了序列譜尋找的新的生物信息學問題,引發推動了生物信息學演算法和應用的深入研究。

在介紹Stormo的短文中,對科學發現有一個精闢的論述。「科學發現可以從多種途徑得到,最重要的是要時時準備好。」在生物信息學中新問題、新方法、新數據、新結果是推動學科發展的動力,我輩的確需要時刻準備好的。

對於科研協作,在前輩科學家的研究經歷中,筆筆皆是。Shamir在Simplex演算法的平均複雜性的證明研究中稱,與導師和Karp之間的合作是「極端令人興奮的」;是新博士後Anders的加盟,使Haussler小組把隱馬模型(HMM)引入了生物信息學界;Waterman和Smith的合作誕生了著名的動態規劃演算法;Sankoff提到CTAR計劃中研究科學家的合作,稱它為「家單位」(home department);是Lawler和Lander的介紹使Shamir從演算法學轉向了生物信息學。

對於科研競爭,有趣的例子是Haussler和Myers在人類基因組計劃中的競爭。他們在博士生時都是Ehrenfeucht討論組的成員,而後,一個(Myers)進入Celera公司用散彈法為私有公司測序,另一個(Haussler)對公開的測序結果進行了拼接,他們同時對人類基因組計劃的完成做出了關鍵性的貢獻。

對於獨立科研,Sankoff對生物信息學創始初期的描述讓我深省。 「在我開始注意到聯配問題時,它不是生物學家們和計算機學家們熱門關注的事物,在十五年以前基因組重組也不是。令我非常高興,雖然有時候也困惑的是:現在計算生物學家和生物信息學家的名符其實的大潮泛濫在這個領域,而在三十,甚至二十年前,只有非常少的單獨研究者。」

對於課題申請,Myers對散彈法的工作的推廣頗費周折。先是「開始對Lander和Waterman的定理關於散彈法真正所說的進行再思考」,而後和遺傳學家Tim Weber申請「通過散彈法作為途徑來加速人類基因組計劃的進程的申請書」,但是「對於這個申請書的反饋意見是非常負面的,Weber和我基本上被判斷為傻瓜。」,但Merys不灰心,「仍然和他的學生在模擬的層次進行工作」,直到最後Celera公司的成立,對Myers來說「這意味著有人決定化30億美元來嘗試我們的項目。」

前輩的科學家工作的工作態度更是值得一表。從Doolittle和Shamir引用的話語中,可見他們對工作的痴迷和努力的程度;Myers對散彈法測序的有著出於常人的堅持和執著;Sankoff的循序漸進的科學研究方法;Shamir對待科研挫折時樂觀的態度;Karp,Haussler等大科學家對生物奧秘探索的熱情;所有的這些都給我留下了很深的印象。

科學家的生活點滴也讓我體會出他們如何把科研和生活緊密結合的。Waterman的科研生涯的開始,只為「能夠不做那些牧場運營和砍伐木頭的工作」,最終他成為「生物信息學的創始之父之一」。Doolittle把科研工作和教育孩子結合到一起,與孩子一起做出了非常重要的工作。Shamir的生物學入門是他妻子Machal啟蒙的。Myers進入Celera公司之前十年就認識了公司策劃者Vender。這些細節或許是前輩學人成功不可或缺的條件之一。

從文中對生物信息學的貢獻方式上,我這裡試著把他們的貢獻分為三種方式:理論生物信息學家,應用生物信息學家,整合生物信息學家。

理論生物信息學家的工作,如Karp、Shamir,他們往往是其它領域中著名科學家,把其他學科科學中成熟或新發展的方法引入生物信息學,解決生物問題,其研究範式多是「有解答後尋找生物問題。」,由於演算法和其它數理方法的一般性和通用性,如果「理解要解決的生物問題」,往往能使生物信息學方法學有突破進展。

應用生物信息學家的工作,如Doolittle,他們往往是生物學方面的專家,只是從數理、信息學領域中成熟的方法引入生物信息學研究,其研究範式是「生物問題尋找答案」,也就是大家常說的「干實驗」。特別在現代,生物信息學資料庫、軟體和網站幫助生物學家通過生物信息學的方法解決他們的問題,這樣的生物信息學家在廣大的生物實驗室中有很大的需求。

整合生物信息學家的工作,如Haussler,他們把其他領域的方法和生物領域的問題整合起來,編製軟體、資料庫和網站為生物學家提供數據挖掘的數據源和平台,諸如Haussler「里程碑式的成功」的人類基因組瀏覽系統。現在是生物信息學的軟體、資料庫和伺服器大量湧現的時代,在軟體整合和數據分析相結合的工作,更是現在許多生物信息學研究中所必須要做的事情。

當然上面的分類是非常粗粒度的,真正的生物信息研究多包括了理論探索,方法、數據和軟體整合,應用於生物學實例,並最終由生物實驗進行驗證,如Miller在序列聯配中用生物信息學推動生物發現的工作。特別要說是,在生物信息學相對成熟的今天,如果沒有實驗的驗證工作,在當前的生物信息研究中很難發表很好的文章。

這裡說生物信息學相對成熟,並不是說生物信息學不再需要理論研究了,非編碼RNA,系統生物學,表觀遺傳學等等新的生物學生長點和高通量測序技術為生物信息學提供了很多新的機會。正像Haussler評價人類基因組計劃成功的時候所說的那句「那一天來到了」,生物信息學研究現在正是仲夏時節。

這段學習筆記是我對當前生物信息的發展的粗淺看法,拋磚引玉,歡迎博友和各位拍磚指導。

轉載本文請聯繫原作者獲取授權,同時請註明本文來自盧宏超科學網博客。

鏈接地址:http://blog.sciencenet.cn/blog-565112-448151.html


幾乎每次回答生物信息問題相關的邀請,我基本上第一句話都是:生物信息的概念很廣,涉及領域很廣(基因、蛋白質、進化等等),研究的側重點不同(生物統計、計算生物學、有的開發軟體、演算法、機器學習),算是交叉學科(數學、計算機、生物)。所以,答案難免有所遺漏,有所偏頗。

這裡直接引用劉小樂老師在哈佛上課的課件上的內容,第一課就講了生物信息歷史上的一些經典應用,很多內容我也不熟悉,有興趣可以自行研究:

(地址:http://isites.harvard.edu/fs/docs/icb.topic1041076.files/Lecture1_IntroCompBio.ppt)

1、蛋白質序列和結構:

?1955: Sanger sequenced bovine insulin (Sanger牛胰島素蛋白測序)

?1970: Smith-Waterman algorithm(是比較兩個字元串、核算、蛋白序列的相似性的演算法,即比對alignment)

?1973: PDB(蛋白質結構資料庫)

?1990: BLAST(Basic Local Alignment Search Tool)

?1994: BLOCKS database

?1994-: CASP

?1997-: Proteomics (蛋白質組學)

2、基因晶元:

通過成千上萬的探針,來同時測量細胞中成千上萬的基因的表達量。

3、DNA序列:

?1953: DNA structure

?1972: Recombinant DNA

?1977: Sanger sequencing

?1985: PCR

?1988: NCBI

?1990: BLAST

4、人類基因組計劃:

當時序列的組裝就用到計算機的程序

5、二代測序:

目前隨著測序能力的提高,時間更多、價格更低、數據量更大。目前很多生物信息的人員是從事二代測序,數據的分析的。


謝邀,只熟悉科研界。不談高大上的案例,請看韓春雨老師的思路,只要會在NCBI網頁裡面點滑鼠就夠了。

此外,還有那些爬Pubmed和GEO發文章的人。

還有,實驗室裡面設計PCR引物之類的。

以上。


推薦閱讀:

如何判斷一個基因在一個物種中有幾個拷貝?
生物專業如何從零信息學基礎開始自學生物信息學?
本人是學生物的,涉及到生物信息,主要是基因組,轉錄組分析,請問該如何去有效的去學習python呢?
生物信息行業應該具備哪些基礎素養?重點應該放在計算機方面還是生物方面或者說其他?
Spark 對於生物大數據分析來講有什麼缺點和不足?

TAG:生物信息學 | 泛生物信息 |