什麼是生物信息學?生物信息學中計算機和大數據各扮演什麼樣的角色?


謝邀

對生物信息學,NIH 的官方定義(http://www.bisti.nih.gov/docs/compubiodef.pdf)是
Bioinformatics: Research, development, or application of
computational tools and approaches for expanding the use of biological,
medical, behavioral or health data, including those to acquire, store,
organize, archive, analyze, or visualize such data.

可見這個定義相當寬泛。既然涉及數據獲取,存儲,組織,歸檔,分析,可視化這方方面面,計算機所能扮演的角色也自然不一而足,很難有效列舉。這問題下的許多答案都可以作為參考。

這裡就所謂的「大數據」,提一點淺見。

如上所言,生物信息學涉及方面眾多,隨生物技術的發展而發展,也自然發展出許多的分支。維基上(Bioinformatics)就列出了十二個主要分支。其中有些是不需要大數據的,就是用到大數據,也不一定是我們現在常說的大數據。像文獻知識的自動提取,就和傳統意義上的大數據有很多相似之處。但,現在高通路生物數據所面對的大數據,和網上常說的大數據,有著本質的不同。

一般我們說因為網路而興起的大數據,就像谷歌這樣的,它們收集的,是成百萬上千萬網路用戶在網路上留下的行為印跡。

這個海量,首先就在於採樣的對像,數據收集者可以輕鬆的收集到幾乎所有人的信息。比如,知乎顯然保存了我們每個用戶的歷史數據,也收集了所有匿名訪問它的人的相關信息。

網路的使用,是一個時時在進行的過程。這海量數據的第二點,就是對於每個用戶,信息的收集是一個時序過程。你可以收集到用戶在相似行為上的重複動作信息,以加強所收集到的用戶行為的可靠性。

第三點,則是人們在網路上的行為是有限的。網路是人設計出來的,理論上每一個細節都是網站的設計者可以把握的。當一個動作只有支持,反對,或不選擇時,所觀察到的行為可以很簡單的歸納到這些人為設計的類別里。

這些網路特徵,決定了網路產生的大數據,前所未有的提供了所有消費者的行為信息,而且,度量的意義大部分是明確的,也是可重複的。

這就讓數據分析者可以有效準確的把握整個人群的行為特徵,進而對人群進行細分。因為我們有了如此之多(確切的說是全部可能的樣本),對於傳統意義上的偏門市場,我們也能有足夠的樣本,來把他們找出來,了解他們獨特的行為特徵(microtrends),並有針對性的迎合他們的需求。還可以有針對性的設計實驗,快速驗證自己 觀察到的行為模式。

網路的大數據,讓商家可以對消費者實現前所未有的細分,進而征服(divide and conquer),這就是所謂的 microtargeting。

現代高通路生物數據,則是在 1990 年代末的微陣列技術起來以後,才真正興起的。

但是,對於生物數據,上面所言的幾個關鍵特徵,都是不存在的。(當然,這也是因為上面的幾個特徵,我是故意挑出來做對比的)。

生物數據需要採集生物樣本。比如研究疾病,每種病的發病率都有限,這從一上來就讓總的數據量被大打了折扣。其次,要收集樣本,就要經過相關的標準審批程序(相信不少同學都被 IRB 給氣死過)。然後,也要有足夠的病人配合。最後,樣本的採集也需要相當的技術以保證質量。

這一切,都是廢時又花錢的事。

所以,生物樣本的總數據量,總是一個瓶頸。

比如,這是幾天前剛在 Nature 雜誌上發表的一個關於癌症的大規模研究:
Signatures of mutational processes in human cancer
在這個研究里,總共有 7042 個樣本,涉及 30 種不同的癌症。

對於生物研究,上千個樣本,真得是一個很奢侈的事。對於普通的研究者,進行一個先導研究(pilot study),往往受制於各種客觀條件,只能有兩位數的數據,我還經常看到有人在分析個位數的樣本。

同樣,對於每個樣本,也是涉及到客觀條件,也很難有時序上的數據。很多數據,只是取了一個時間點。而很多時候,因為數據收集的困難,這些採樣時間點也不盡相同(比如有的是在診斷後,有的則是在開始治療後),增加了數據本身的複雜度。

而能採集的數據,有時也和理想數據有差據。

比如就疾病來說,最好收集的數據,莫過於血液。采血可以迅速獲得比傳統方法要大得多的數據,幾千,乃至上萬。但是,這就要求這個病要把相關信息釋放到血里。對於神經系統疾病,最好的信息莫過於來自脊髓的腦脊液。可是,這個收集過程就痛苦得多了。想來沒有什麼人會隨便在體檢時讓你采個腦脊液。於是,你就面臨數量和質量的問題。

那,生物數據的高通量,大數據,又反應在什麼方面呢?

數據增長,完全表現在另一個維度上,就是對每個樣本的相關信息。

對於是樣本,你可以做最基本的基因表達的晶元,獲得 3 萬個基因的表達信息,如果需要,可以獲得幾十萬個外顯子的表達,以了解不同的剪切。你可以測序,獲得 3 億個核酸序列,並由此知到幾百上千萬個潛在的變異點的狀態。你可以檢查有沒有 Copy-number variation。你還可以做甲基化晶元,以獲得 50 萬個潛在的 CpG 位點甲基化的信息。當然你還可以做免疫晶元,獲得各種抗體信息(最近的苾片也可以得到幾十萬種氨基酸序列的信息了)

可見,對於一個樣本,你擁有的,是上千萬,乃至上億種特徵的信息。

這些特徵,都是長期進化的產物。它們都或許有自己的用處,在某些特定的階段,特定的疾病。但是,這是大自然這個工程師設計的,它沒告訴你,在你的具體研究里,該用哪些個特徵。這,就變成了一個在超高維度上,大海撈針的過程。

這就是生物大數據和網路大數據的本質不同。

網路大數據上,你有上千萬的樣本,每個樣本有大量的重複採集的特徵,而這些特徵,往往是從人為設計的交互過程里選出來的。你的樣本數,永遠是遠遠大於特徵數。

生物大數據上,你有幾十上百個樣本,每個樣本可能只有一份採樣,但是,從這份採樣里,現代高通路生物技術幫你收集了上千萬種不同的特徵。你的樣本數,永遠是遠遠小於特徵數。

這一差別,決定了二者從方法到前景上,都很不相同。


在國內某被稱為生物信息西點軍校的非公司的研究院(嗯…是研究院)怒答一記…
補充一下自己對生物信息學發展的看法,以及學生該如何選擇生物信息學,各位感興趣的學生朋友們可以參考。
在國內廣大高校的生科院中,生物信息還是非常冷門的學科,絕大多數科研人員還是在從事傳統分子生物學為基礎的實驗科學。可是在信息化飛速發展的情況下,傳統分子實驗對生命的探索遠遠趕不上生物數據的產生(上百g的數據大概是無論如何也沒法一個一個分子驗證的)。面對生物數據大量膨脹,而分子實驗效率無法有效提升,通量無法繼續提高的情況下,只有利用高性能計算機對測序等產生的大數據進行統計學等數學方法分析,結合已有的分子基礎,才能更系統更全面的探索生命活動過程。也就是現在比較火的系統生物學(System Biology)。
相對數據產生和過濾篩選的過程,結合數據對生命活動進行解釋是生科專業大學生們更能發揮作用的戰場,但是這也要求更高的數學物理統計計算機的水平。作為理科生,我覺得這些也是必須學習掌握的。希望能有更多的學習生科的同學加入到系統生物學的戰場來。
知乎其實有很多我院我司的大神,在下水平不高,只給在學習生命科學的本科研究生提供一個對於選擇生物信息方向的一個建議。


此題專業對口,來手機答一題吧。

生物信息學(Bioinformatics),實際上就是使用計算機來幫助解決生物學中遇到的各種問題。和許多學科類似,生物學的大多數領域最初是非常不定量的,除了群體遺傳學等幾個小眾領域之外,大多數生物學家是電腦盲,甚至對基本的統計學一無所知。

導致這個情況出現變化的關鍵因素有兩個:
一:計算機技術的進步使得人們發現很多生物學問題可以使用計算機迅速有效的解決。一個例子就是人們七十(?)年代開始使用資料庫存儲已知的DNA/蛋白質序列(NCBI/SWISSPROT),隨之而來的問題是如何快速搜索這些序列(Waterman"s alignment algorithm, BLAST, BLAT, etc),而後人們又想知道如何理解DNA/蛋白質的序列(GENESCAN, etc),再往後人們想圖形化的看到這些序列(Genome browser),再往後。。。就這樣,大量計算機科學家/數學家/統計學家湧入生物學這片處女地,使用演算法和統計學解決各種各樣的生物學問題。


二: 生物技術的進步帶來基因租學/蛋白租學/各種組學的出現,使得海量的數據積累變得非常迅速,而不得不使用計算機和統計學來處理。人類基因租的測序之所以是里程碑式的事件,並不光是因為我們測出了人基因組。基因組的出現同時也標誌了生物學大數據時代的黎明到來。人類基因組有3G,測一百倍覆蓋率就是300G的序列數據。二代的測序技術讓我們生成數據的能力指數級放大。到現在,一個研究生一禮拜生成和處理數百G的數據是司空見慣的事。這樣規模的數據,沒有生物信息學的工具和高性能計算機是不能處理的。


到今天,生物信息學已經發展到很難有一個精確的定義,因為生物信息學在生物學研究中無所不在,作為工具整合進幾乎所有的研究中。生物信息學的先驅之一,CSHL 的 Lincoln Stein 數年前曾撰文說生物信息學將在十年內」消亡」,此言極有預見性,因為到今天生物信息學已經融入生物學研究的每一個領域,很難再稱為是一個專門的學科了。就像八九十年代流行的「分子生物學」,當時彷彿生物學可以分為「分子」和「傳統」的生物學。到今天已經無人再提「分子生物學」這個詞,因為幾乎所有的生物學領域都已經「分子」化了。生物信息學也是如此,幾乎所有的生物學領域都已經「信息」化了,生物信息學作為一個獨立學科的使命,也就到此為止。


前面大家提及:互聯網背景下的大數據和生物學,醫學以及生命科學中傳統方法採集的數據各有特徵,個人認為目前互聯網背景下的大數據還不能和上述三個領域的數據在數據量上相比較。簡單說,首先,細胞,組織等結構是具有活性的,其功能,表達水平甚至其分子結構在時間維度上也是連續變化的。拘於現有的採集技術和數據整理水平,當前各類資料庫提供的數據往往是靜態的,這造成研究人員面臨樣本數目稀少的局面,但這並不是說客觀世界本來就數據稀少,因為動態性,或者說運動,才是生命活動的固有屬性;其次,即使是從靜態角度來看,互聯網背景下的大數據在特徵組合方面也遠低於上述三個領域的數據,在這些領域,通常都面臨特徵組合的爆炸問題,比如所有已知物種的蛋白質分子的空間結構預測問題,就已經遠超現有人類的科學計算能力。不是說生物信息學將消亡,而是剛剛才開始。正因為生物信息的重要性,生物信息學才融入到相關領域的各個方面。個人認為目前還處於數據收集的階段,數據遠不夠豐富,距離客觀實際還有差距,因此生物信息學領域要出現重要成果,還需要等待,巧婦難為無米之炊。


很多人理解錯了大數據在生物的應用方向,往往將群體的生物行為特徵的數據統稱為生物大數據,卻有意無意地將個體多樣化生物行為特徵的大數據視而不見!原因何在?
一句話,真正的大數據應用在生命科學領域還沒開始!支持這種數據分析的理想工具不會是現有的模型和軟體!原因在於找不到合適的多元非線性分析工具。


先拋個磚吧。生物信息的發展伴隨著計算機計算能力提高和生物學數據的積累。當然還有數學理論和演算法在生物學數據的應用。目前主要的是在數據處理,數據挖掘和預測。比如基因組組裝,基因預測和蛋白結構預測。其中最難的應該是蛋白結構預測吧。另外,測序技術的發展,改變了之前單線的生物學研究(比如基因敲除),而是擴展到面及網路。資歷尚淺,先想到這麼多,歡迎牛人來答。@chengang


有些人把「分子模擬」也叫成生物信息學,其實是不一樣的吧。
生物信息學處理的是大量的數據(比如基因組的信息),所以才叫信息學,分子模擬關注的是結構(分子的三維結構)。
通常講的生物信息學應該不包含分子模擬吧?


搞研究很好的方向,去企業很雞肋的方向!


推薦閱讀:

霧霾會不會堵住蚊子的氣管?
為什麼大多數人都是右撇子?
人類長生不老還需多久?
可否將蛇放到冰箱進入冬眠狀態?
有必要為了一個顯而易見的實驗結果折磨小動物么?

TAG:生物學 | 生物信息學 | 大數據 |