生物數據為什麼是一種很好的大數據?
如題。其實是在沒有什麼了解的情況下來問生物統計為什麼這麼火
其實我認為目前階段的生物數據還稱不上「大」。等啥時候搞出幾十萬人的轉錄組,或者個人的系統生物學模擬再說吧。。。生物統計這麼火,我覺得是因為一方面是交叉學科的問題,既懂生物又懂統計的人本來就少,就如同生物信息一樣。另一方面,現在的基因組測序技術終於能幹點應用了,比如查一些單基因病什麼的。於是大公司拚命砸錢、快速擴張,自然就要招人。
瀉藥,針對原問題回答,生物統計為什麼這麼火:生物統計在國外確實很火,國內也有慢慢火起來的趨勢。
從根本上說過往統計學家常常面臨數據量不足的問題,這一困難在生物學屆可以有效解決。可以說生物學與統計學相互滿足了對方的需求。
生物學有大量的觀測值、變數數據,但是傳統的回歸、相關分析方法難以有效挖掘這些變數之間的關係。舉個例子,生物學家希望研究果蠅某種病症的致病基因,但是可能對其產生影響的基因有很多(統計上相關性都很高),而這些因素有相互影響,到底哪些因素是真正的原因?對此生物學家的傳統方法是進行試驗,把某些基因更改一下看是否對病症產生影響。但是試驗很難做,成本很高,結果也不一定十分令人信服。這時候統計學家出場了,統計學家先後祭出PCA、變數選擇方法,甚至用上graphical model和圖像識別方法(參考UC Berkeley 郁彬老師的研究),有效解決了生物學家在不進行試驗情況下挖掘因果關係的問題。因此可以說統計學家解決了生物學家的需求。
反過來生物學家也解決了統計學家樣本量不足的難題,傳統統計學領域中許多模型是需要大量數據來實現的,當下生物基因技術的飛速發展為統計學家研究高維數據提供了便利,貝葉斯方法、變數選擇方法都找到了完美的試驗田(參考Harvard 劉軍老師和Stanford Tibshirani老師的研究),大量統計學家都把自己更新的演算法應用到了生物學中,效果確實很好。
綜上所述,兩撥人一拍即合,文章發的杠杠的,課題做的棒棒的,生物統計就火起來了。
兩個主因:(人為例子)基因組大,單一個樣本測得的數據就多,數據類型也多,包括基因組、轉錄組、表觀組、Meta、蛋白組等,這是數大;第二,要做出真正有意義的成果,就要求樣本足夠多,這是量大。要說好,其實很多大數據都挺好,關鍵還是立場。這裡題主專門點名生物數據好,那最大的一個原因就是它的成果是直接用到改善人的健康和生活品質方面上的,讓你能夠更懂什麼是健康,病是怎麼樣的,如何個性化,時刻掌握自己,然後最重要的就是活得更好更長壽,所以當然就好了(這也是基因組學的目標)。
反對現階段生物信息領域所謂大數據的說法。這樣的誤解可能是源於生物學家誤解了大數據在互聯網行業的實際含義。當前各種組學數據只是單個樣本的數據量大。但大數據除了形容數據量大以外,本質上是要求大樣本的。現在生信領域的實際情況是樣本數量和模型的複雜度遠遠不在一個數量級上,這是典型的小數據。
行業內頂級雜誌發表的組學研究有幾百個樣本已經很了不起,但這是遠遠不夠的。對於這樣的數據,我們一般採用儘可能簡化模型的辦法,比如PCA,Sparse Learning等等。電商領域之所以提到大數據是因為用戶足夠多。在這個前提下,電商基於兩種商品銷售之間的相關性向用戶作出推薦,是能提高銷售額的。所以,你看到現階段的生物信息界根本沒有所謂大數據這回事。這與時下火熱的互聯網行業的大數據完全是風馬牛不相及的。
能積累大樣本的前提是測序成本足夠低,甚至像王俊在ICG-10上說的希望在2019年徹底免費。我有預感,大概在十年內真正的生物大數據能夠變為現實。數據的真實性堪憂 不排除假陽性 isolate個 granulocyte做 RNA seq結果百分之四十是rRNA,真醉了,正在troubleshooting
推薦閱讀:
※無盤網吧的客戶機可以裝固態硬碟提升讀取速度嗎?
※在擁有正版軟體許可證的情況下,使用該軟體的破解版合法嗎?
※NEC顯示器的低端型號是否可靠?
※為什麼影視級離線渲染會十分消耗內存,一般都需要達到32GB以上?