大數據時代下的生物信息學專業與生物信息學職業?


生物信息從大面上至少可以分成,開車的和造輪子的,搞汽車裝修的這幾類。除了開車的,其餘很少能夠接觸T以上的數據。

我最近在實驗室做一些分析,我也不知道算不算大數據,反正一周樣本都跑下來,快10個T了。現在測序很便宜,一個樣本測個幾百G,然後平行幾個樣本的事情以後肯定會越來越多。什麼是真正的生物大數據時代,我不知道,我只知道現在800G的儲存成本是3000RMB左右,只能測30G的數據,什麼時候這3000RMB可以測500GB的數據時,才是真正的海量數據。

另外,生物信息學數據量,每5個月翻一翻,這個數據量,你想想吧,有哪個能比?


和互聯網不同,我覺得現在的生物還不算是進入了所謂的「大數據」 時代。

第一個不同是,在互聯網行業,我們可以很容易的用各種api獲得成T的數據,然而生物行業,測量大量生物數據需要很多花費。即便是現在的二代測序發展迅速,獲得數據的花費大大減少的情況下。我們獲取大量數據的能力依舊不夠強。

第二個不同是,來自不同研究產生的數據很難整合。因為即便是相同類型的數據(比如轉錄組),用不同的方法,不同的測序深度,獲取的數據也會有不同的噪音。另外生物樣本有內在的噪音,比如基因突變以及表達噪音。不同研究中的相同類型細胞,可能有很不一樣的特徵。所以我們很難把來自不同研究的數據輕鬆的整合起來。1+1不一定等於2。

所以我認為,現在生物中所謂的「大數據」,現在還只是炒概念而已。當然你要認為100G就算大數據了,那我也沒話說。


生物信息的數據和互聯網的大數據其實很不一樣。之前聽一個老師講的:「生物信息的數據主要是深,互聯網的大數據主要是廣」,感覺很有道理,其實我對互聯網上的大數據也不了解,但感覺是一種樣本量非常大,但是內容較淺的數據,比如有多少人瀏覽了某網頁,分別是從哪裡點進來的,進來之後購買了什麼商品。樣本量很大,但是對於每個樣本要分析的內容是非常明確的,而且可行度很高,後續隨便做點統計應該就可以了,主要是計算量大。生物信息的數據就不一樣了,通常來說樣本量不大,就幾個個體或者幾十幾百個,然後數據非常複雜,可能有基因組,表達組,變異數據等很多(而且數據不怎麼可靠!),然後生物信息的研究會嘗試從中發現一些規律或者找到關鍵的基因或者位點之類的。總之就是分析方法和分析內容都和傳統大數據的分析不一樣。


根據我的科研經驗,我比較贊同孟浩巍的說法。

我目前在國外進行癌症的next-generation sequencing 數據研究,作為菜鳥級,我處理數據幾十T。我認為基因檢測相關研究至少在國外已經步入大數據時代,國內現狀我不是很清楚,並且我認為這股趨勢發展勢頭很快。

生物信息的NGS數據發展為高通量數據,包括whole-genome sequencing 或者RNA-seq的數據量,再不僅限於幾個位點的target-sequencing,而且很多測序機構在開發改良技術,提供長度更長深度更高的數據。近幾年,TCGA公開癌症資料庫中,目前包含14531個數據樣本,總數據量進入petabype數量級。每個樣本的數據大小以WGS data來算就是約100G,單個癌症類型的樣本量達到幾百到一千的數量。也就是說單個疾病的資料庫病人的wgs測序數據就是上百T,RNA-seq的數據就是幾十T。

目前的狀態是科研以及醫院的測序數據太多,某些伺服器處理和存儲能力跟不上,而且有的機構拿著數據不知道怎麼分析。也是近一年中,我也能有幸從機構的伺服器轉為使用國家級雲計算平台。

生物測序數據是深,但也在走向廣的方向。目前是存在噪音問題,樣本的測序平台不同,病人的地域和臨床病症不同,這都需要解決。


同學你好,首先,我覺得,對所謂「大數據時代」應該有個理性的認識。大數據時代並不是所謂技術的飛躍式發展(其實從本質上講,自從上世紀以來,人類的科技文明根本就沒有什麼實質性的進步),而是人類對待數據的態度發生了轉變。在此推薦一部電影:點球成金(Money Ball)看完了你大概能明白這是個啥意思了。

而「大數據時代」之所以這麼火,除了不明真相的群眾本身存在過多幻想之外,更多來自於投機商人的炒作,畢竟現在不是拿個撲克牌就能騙到上市名額的時代了 ;P

說回生物,生物信息學目前確實沒有進入大數據世代,就目前的情況來看:我們面臨的不是數據過剩而是數據不足

從總體上看我國民眾對生物或者基因方面的認知基本來自於荷里活電影。對轉基因基本抱著絕對感性的反感。這種反理性的行為其實是大量生物數據被創造的最大障礙。不妨看看身邊的老人,有多少寧可相信中醫中藥,而不願意去接受價格差不多的西藥治療?(順便吐個糟,中醫中藥其實就是古代大數據,拿大量人命堆出來的。我個人還是相信中藥中醫中有精華部分,但是糟粕太多。)沒有臨床數據,新葯就不能上市,這就又陷入了死循環。

再說說轉基因,國人各種反感轉基因大概是把農藥和轉基因基本混為一談了。而這種集體非理性也大有把轉基因掐死在娘胎里的感覺。事實上,轉基因確實有可能對人類和環境帶來危害,而這種危害,更多的是體現在對環境的破壞層面。我就納悶兒了,怎麼就吃轉基因食品得癌症呢?特么得癌症的還都喝過白開水呢,怎麼不說喝白開水得癌症呢?恩,所以收集轉基因到底會對環境產生什麼影響這方面的數據的想法也就死在娘胎里了。

最後說說你可能感興趣的NGS和其他組學方面的問題。首先,關於二代測序的數據的價格基本上我個人感覺已經低到可以個人支付了。所以將來,在基因數據產出方面絕對不是問題。但是如果深入了解NGS的話,你就會發現,其實NGS根本不是萬能的。再加大測序深度、增加乘數,該測不到的地方還是測不到,該測不準的地方還是測不準。

所以,在「生物序列大數據時代:到來之前,還應該有個檢測儀器和檢測技術的大飛躍才可以。三代測序可能是一個思路,其他檢測技術,如代謝組學、蛋白質組學等輔助也可以是個思路,但是還需要建立相關的方法,這大概才是目前生物信息這個行業工作的重點。

希望對你有所幫助

PS:相信科學的力量,相信理性的力量


國內的很坑的與幾乎每個學校都開設的英語專業差不多坑


生物信息的數據主要是深,互聯網的大數據主要是廣


反對一下 @七輪 的答案吧

1. 首先他提到了數據來源的這個問題。測序所得到的數據確實是不完美的,有時候甚至還會存在很大的誤差。但這並不是生信坑的地方,恰巧,這是做生信的機遇和挑戰。舉個例子,在assembly algorithm 這一塊,如果reads 的長度和準確度能在現有基礎上提升幾倍,那麼做這一塊演算法的人基本就可以休業或轉方向了。問題就是,現在並不能用低廉的價格得到這樣的數據,是這種情況才使得在這個領域的研究者有飯吃。

2. 這一塊沒什麼好說的。 我也不懂生信沒有剛需是什麼意思,答主以一人之力,顛覆整個領域,佩服。

3. 結果驗證確實也是一個很大的問題。但其影響可以同理 1

-- 結語 --

生信本身還是一個還未發展成熟的領域。這樣的領域必然有各種各樣的問題等人來解決。我並不是很了解這些問題對於工業界價值有多大,但對學術界來說,還是有一定價值的。

上面答案中提到的那位答主戾氣很重,不知在生信方面建樹怎樣,只希望其之後答題不要如此偏跛,誤導後來人。


推薦閱讀:

瓊脂糖凝膠電泳跑的DNA為什麼會拖尾?
利用16S測序等方法分析菌群丰度之後,如何進行驗證?
有哪些從生物轉成計算機的牛人?
DNA雙螺旋結構中大溝小溝的作用是什麼啊?

TAG:生物學 | 生物信息學 | 生物專業 | 大數據 |