當前computational biology發展如何?會有怎樣的突破?


作為工具/應用

序列分析(sequence analyses)應該是目前computational biology下面發展最完善的一塊。如果我們把序列分析定義得稍微廣泛了一些,任何直接分析基因型的東西都算作序列分析。那麼未來一段時間它在應用方面的發展會非常好。

1.在研究中的應用

實際上現在很多experimental的實驗室,特別是生物醫學實驗室都沒有好好做computational analyses的能力。一方面是沒意識到這個需求,二是相關人才確實不夠。私以為一個wet-lab至少要配一個computational研究人員,而且越是前沿的研究課題,這個人必須對相關生物學問題的認識就要越是深入,需要長時間地與experimental研究人員磨合。當然,不用說,最好的還是一個人既搞computational,也搞experimental,但顯然難度也比較高。

2.在研究以外的應用

特別地,最近NGS臨床應用的商業化推進得很快。這會使得基於序列分析的各種技術得到極大的推廣。學界積累多年的相關知識會迅速被投入到實際的應用中去。特別是各種GWAS,精準醫療什麼的,會因為商業利益而飛速發展。

作為研究方向

1.序列型數據

研究上,個人認為序列分析本身已經比較完善,可能不會有太大的突破了(或者至少比起下面兩個,突破更少更難),而只會是應用一些通用的分析方法去解決新的生物學問題。

2.數值型數據

可能會是新的增長點。

例如基因的表達量。有時候很難想像,基因表達量的進化模型居然這麼匱乏,少有的幾個都不太能得到廣泛的認可(主要是好多assumption沒人知道對不對),結果連表達量是符合正選擇、負選擇還是中性漂變,都很難下定論。

又例如表型數據:

比如老鼠JJ骨的大小和形狀什麼的,見下圖(出自Dean Lab, U. Southern California)JJ骨進化特別快,形狀差一點就交配不了,於是乎生殖隔離,形成了新的物種。

還比如酵母的形狀(出自http://scmd.gi.k.u-tokyo.ac.jp/datamine/),有大小、角度、細胞核的位置等等不同數據

各種不同表型數據,每種又有各自不同的模型,是否可以/如何放在一起比較。如何聯繫到基因型上面去(GPM, Genotype-Phenotype mapping)?這些都是computational biology需要回答而未回答的問題。

3.其它類型的複雜數據

網路(蛋白相互作用/信號轉導通路),這個文章還是比較多的,但是很多時候,它們對應的生物學意義並不是特別清楚,也特別難回歸到實驗科學上進行驗證。

樹(細胞譜系樹,cell lineage tree),分析這個的文章真是少得可憐。這個有多重要呢?想看大牛親自講解的請看:Cell Lineage Project(他有個TED的講座專門講這個:Ehud Shapiro: Uncovering The Human Cell Lineage Tree)。想看在下扯淡的請看:現代生物學是否已經發現細胞是如何成長為生物的? - Philip Yang 的回答


謝邀,我只寫點自己粗淺的看法,算是拋個磚。我覺得computational biology和experimental biology一樣,都是研究生物學問題的手段,只不過除了傳統的hypothesis-driven(科學假設引導)的思路外,還有data-driven(數據分析引導)的思路進行研究。隨著大數據時代的到來,computational biology會有更大發展,但是歸根到底它還是研究biology,所以離開了biology單純做工具模型會脫離本質,最好要與experimental biology緊密結合,這樣它才會走的更遠更好。


現在NGS太火,以至於提到computational biology基本就是NGS相關的東西了 (Oxford Journals)。個人感覺現在comp bio面臨的一個問題是:隨著各種測序價格慢慢下來,有越來越多的濕實驗室會開始用高通量。但是能夠進行深度數據分析的人才是不夠的。最近的一篇nature專門討論了這個問題,並且給出了幾個原因:Core services: Reward bioinformaticians : Nature News Comment

大量數據的產生還產生了另外一個問題,那就是我們的信息量或者說對於生物的理解能力並不能隨著這些大量數據的產生而快速增長,因為大部分NGS數據都是孤立的,由各個實驗室在研究某個特定問題的時候產生。將這些異質的數據整合在一起是困難重重的。這方面ENCODE做了一個很好的榜樣,因為他們有一套統一的data standard和qualify process,讓不同實驗室不同時間產生的數據可以放到一起用。但是這樣大型的項目畢竟不多。

未來幾年的話,functional genomic和各種chromatin feature會繼續火下去,cell specific的enhancer, alter splicing之類的(super enhancer也是挖了一個大坑)。順帶著GWAS也會隨著這些東西來個第二春,畢竟能解釋non-coding sequence了。再順帶著各種personalize med又可以繼續灌水求funding。application track里chromatin engineering可能也會有更好玩的東西。

另外single cell RNA-seq應該會更火,然後就可以做一些stochastic process相關的很數學的研究了,說不定可以搞些有意思的東西。最後表觀遺傳學跟著NGS的東風,應該也會越來越火。

然而說了這麼多,其實只是googlescholar搜comp bio然後把這兩年文章的高頻詞總結一下的效果,至於預測未來發展方向這種高屋建瓴的東西,不是我這種菜雞所能做的。


樓上一片給計算生物叫好的,我來潑點冷水,我覺得計算生物那些非常主流的發展都是給實驗做嫁衣的(當然能多拿倆錢).

比如說你要問我現在生物發展(如果以治療複雜疾病為最終目標)最大瓶頸是什麼,我說是實驗手段,比如說你想研究一隻果蠅的神經系統,你要研究神經細胞內部蛋白,RNA,DNA的相互作用,然後是神經細胞之間的相互作用,然後每個相互作用都不能分開看,必須要一起動態的看才能真正理解果蠅神經系統.

那現在做果蠅神經最仔細的是怎麼做的呢,我知道的是把某一種cell type提純出來,然後做PCR,然後是deep sequencing,那麼計算瓶頸是呢?就是把讀出來的read align到果蠅基因組上,你覺得這是技術瓶頸嗎?string alignment是計算機早就解決的問題,然後就算是你這些分析都做了,你知道果蠅神經系統是怎麼回事了嗎?沒有的,這些提純出來in bulk測量的cell type都是一些量很大的cell type,有些cell type是只能做單細胞實驗的,那麼你就要擴大RNA的量,我們知道每個細胞有stochasticity,表達差異都是很大的,就算是側出來了,已經是脫離了活體環境了,那麼這裡計算的作用又是什麼呢?還是alignment!有人說,你可以做些統計工作,這麼說吧,一個細胞以上千上萬的基因,互相作用的方式無數,你如果僅測量表達量,你需要大量的測量才能建立一個合理gene network,瓶頸是什麼?high throughput measurement!還是實驗!這方面可以參考 Dana Pe"er Lab of Computational Systems Biology .那麼現在很多做gene interaction的計算實驗室在做什麼呢?比如這個實驗室 Bejerano Lab, Stanford University ,就是先搞掉一些transcription factor,看影響哪些基因表達,然後再找那些基因上游的conserved TF binding site.一篇文章就出來了,你覺得這對你了解基因調控有多少幫助?還不要說這些實驗全都是in bulk.

我不是說讓樓主不要搞計算生物,我只是想說,生物研究是非常困難的,因為觀察生物個體的任何一個內部的interaction都是非常困難的,所以其實發展的瓶頸主要在研究新的觀察方法上,而一旦有了觀察方法,計算方法是很自然會出現的,而在沒有好的觀察方法時,大量的疾病只能靠兩種方法治療:1)簡單疾病找到一個target,篩小分子,比如最近大賣的Sovaldi,2)複雜疾病在不完全了解機理時使用蠻力,比如說cancer immunotherapy.這兩者計算最多只是起一個非常小的輔助作用.

當然也有些實驗室我覺得計算用的很有趣,但都不跟現在市面上用的deep sequencing有什麼關係,

比如我剛才說的 Dana Pe"er Lab of Computational Systems Biology ,實驗方法用的是flow cytometry和mass spec接合, 還有一個 Voigt Lab ,是合成生物學實驗室,實驗方法是大量的DNA合成轉染和flow cytometry,都是high throughput single cell experiment,計算只是個輔助手段,當然已經是很重要的輔助手段了.


計算生物學裡面,除了前面提到的基因組學,還有計算蛋白質組和代謝組學的內容,建議搜索。


推薦閱讀:

如何評價南科大/瀚海基因推出第三代基因測序儀GenoCare?
麻煩想諮詢一個關於illumina 測序出的reads的問題?
基因測序在美國和中國都有哪些商業模式?
如何評價華大推出的Revolocity測序儀?
3C,4C,5C以及HiC測序技術都有些什麼不同?

TAG:DNA測序 | 生物信息學 | 計算生物學 |