工作3年的生物信息人員轉行大數據挖掘,如何準備?

我是從事生物信息分析的生物學碩士,已工作3年,已經28歲了,熟練perl/python/R。生信流程研發讓我越發的覺得數據挖掘的重要性,特別想轉行大數據挖掘,正在學習「機器學習與R語言」,請教大家以下3個方面的問題:

1.學習方面:我應該如何準備,學習到什麼程度。目前數學只會一些概率統計方面,各種假設檢驗。

2.項目方面:如何積累項目經驗,生物信息雖然也是數據挖掘一類的工作,但是和目前各大互聯網公司招聘的要求明顯不同。我能通過什麼方法進行項目實戰,給面試增加籌碼?

3.面試方面:崗位專業要求,都是數學、計算機之類的。會不會因為生物出身而直接被拒,面試的流程都有什麼?如果沒有公司願意要我,28歲的我申請實習崗,是否可行?


本人博士期間的方向就是生物信息學,後來工作(非數據挖掘)五年後,才開始真正做數據挖掘,所以,零門檻呀,因為生物信息中大部分用的也都是機器學習的方法,只是換個應用場景而已。


大數據挖掘不是一個獨立存在的行業,也依賴於具體的行業應用,生物數據挖掘顯然是其中一個重要的行業。

不妨繼續做生物信息,同時重視機器學習、數據可視化方面的學習和實踐。

另一位說的不在意的出身是有可能的,但並不意味著你應該跟搞統計的比統計理論,跟搞數學的比演算法和優化,跟機器學習出生的比模型,跟計算機的比實現。你的背景決定了,如果你能看懂他們弄的東西,並用於生物數據的分析和挖掘,就完勝了~~~~

廣告:我司需要各種背景的人來挖掘生物數據,團隊已有計算機 、數據、統計學、生物學、生物信息學等各種背景的人:)


我的情況和你的類似。三年前畢業那會,壓根沒想好自己要做什麼,中間也想過轉行互聯網,但面試了一些公司感覺純粹的工程碼農很枯燥。最後還是留在生信,慢慢地發現NGS數據挖掘其實也可以很深度地建議機器學習。

舉個例子,微生物組,代謝組都是高維數據,要用到降維,因子分析,數據清洗去噪,正則化。做疾病風險預測要用到RF, SVM, Bayesian分類器。因子互作或代謝網路要用到類似page rank演算法的圖論演算法。如果採集的樣本是多個時間點的還可以建ARIMA等time series model。當然前面更基礎的序列分析中用到基因預測的HMM, mapping的動態規劃,基因晶元用融合遺傳和蟻群演算法求解最短公共超串問題等等都是非常經典的機器學習演算法。

生信是個學科大交叉的領域,總能有自己關注的一些方面可以精進。練好內功,不同行業之間的切換應該也不是太大問題。

路漫漫其修遠兮,共勉。


(註:本文根據知乎live「大數據人的職業生涯規劃」 部分內容的分享整理而成)

一、我們先來討論下大數據(數據挖掘是其中一個方向)是不是值得大家從事的一項職業,如如下問題。

大數據為啥這麼有誘惑力,是否值得投入,現在進去晚了嗎?

首先,大數據企業眾多,逐步形成產業化。從08年開始,大數據就成為互聯網信息領域的大熱門。由此而來,大數據企業像雨後春筍般層出不窮。純粹做大數據服務的公司,全國就有數百家之多。另外,更有成千上萬家企業是主要利用大數據來驅動業務發展的公司。

其次,大數據人才需求量大,薪資相比其他行業遙遙領先。數萬家的企業都把大數據當做企業業務發展的制高點,都在不惜代價的搶灘大數據人才。就拿互聯網金融行業來說,不低於一萬家企業,平均每家企業都需要10人以上的數據人才,BAT就更不用說了,每家的數據人才都是以千計。據初步估計,2020年國內數據相關的各方面專業人才需求量達數百萬,缺口百萬級以上。在這樣的情勢之下,大數據人才的薪資往往都起點高,增長迅速,一個碩士畢業兩年熟悉某一類模型演算法的人員,月薪低於2萬基本上是招不到的。

最後,大數據代表未來高科技發展方向,不管是智能社會、智能城市、智能社區、智能交通、智能製造、智能理財等等,都依賴於大數據基礎,這是多麼巨大的市場和發展機遇。所以,在現階段,無論你何時去決定投入,都有非常大的機會,至少未來十年,大數據一定不會衰落。

二、我們看看哪些人可以從事大數據相關工作。看如下的問題:

怎樣的人能從事大數據工作,我是生物、材料、自動化、電信、經濟金融等非數學、計算機專業的學生,也可以做大數據嗎?

首先,我想先明確的跟大家說,完全可以,身邊太多這方面的案例了。有生物博士畢業後,從事大數據云計算工作,有經濟學的從事大數據分析挖掘工作,也有市場營銷的從事大數據運營工作的;

其次,大數據相關有各方面的工作,有需要用到高深的技術的,也有非常簡單的工作,主要你願意並且有決心從事大數據相關工作,不管你先前讀什麼專業,一定能找到最適合你的切入點,進入大數據行業工作;

再次,關於如何找到最適合自己的切入點問題,需要全面分析個人的特質、教育背景、興趣愛好、社會關係、未來的理想目標,做出比較個性化的最適合自己的切入點切人到大數據行業工作。有些人適合從大數據分析入手、有些人適合從大數據產品入手,有些人適合從大數據爬蟲工作入手,有些人適合從大數據化運營入手,有些人適合從數據挖掘演算法模型入手,這還是從大的方面來講,還有更多小的切入點,等等,每個人的背景不一樣,切入點就會不一樣。我舉個例子來說,一位讀材料的工科本科生,個人對計算機軟體很感興趣,在校期間也曾經編寫過一些JAVA程序,對大數據也充滿好奇,其朋友的公司也剛好有大數據崗位需求,那麼他就完全可以安排好大數據學習計劃,去從事大數據技術研發工作的。

最後,要落地實踐。想辦法找到一家哪怕只有幾個人的小企業,就算沒有大數據只有傳統的數據,去從事數據相關的工作,在具體實踐項目中,不斷的學習,再逐步的調整自己的興趣愛好的方向,不久的將來,一定能找到你最想干大數據相關工作的;

在這裡,我補充說明下,關於如何找到個人的切入點的問題,如何找到進入大數據領域最佳路徑方面,以及如何落地實踐方面,由於需要全面分析每個人的職業背景、教育背景、性格特徵、興趣愛好、知識儲備、等等,是一個非常個性化的問題,在這裡,我就沒辦法一一同大家分享,如果大家真需要我幫助的話,可以在在行APP上搜索我的名字進行預約,我會在全面分析了你個人的情況後,幫助你找到一個切實可行的解決方案。謝謝!

三、 我在企事業、工廠製造等單位從事傳統信息工作多年,30大幾年齡,還能轉行做大數據相關工作嗎?

針對這個問題,我有四點建議。

第一點,要有決心。先問問自己是否能夠把大數據工作當做自己未來10年、20年甚至畢生都想從事的工作,如果是的話,那麼,就算你在傳統行業工作了5年、7年甚至10年,都30大幾的年齡,現在轉行也為時未晚;

第二點,要有信心。你是否已經習慣於企事業單位那種清閑的日子,你是否一直在傳統如製造業工作,習慣於日復一日的按部就班的做好日常工作?相信你一定不是,要不就不會在這裡聽我分享了。來這裡證明你還是有一顆騷動的心的。那麼,好,你一定也可以轉行做大數據,只要你想。拿製造業來說,雖然現在有智能製造概念,對製造行業會是一個機會,但對個人來說,傳統行業工作的升值空間還是非常有限,何況大數據代表著一種高科技術,掌握了大數據就掌握了未來制高點,智能製造也是要靠大數據來支撐,你決定轉行做大數據相關工作,我認為還是比較正確的,大數據目前正處於快速成長期,並且,至少未來十年都不會衰落,對人才的需求量非常大,薪資水平就目前來說在所有行業中排在非常靠前的位置。

第三點,要有恆心。大數據是一項技術領域的工作,需要掌握的技術非常多,你是否有恆心不怕苦、不怕挫折的去學習,把自己欠缺的基礎完整的補回來,比如做大數據研發需要你去學習JAVA基礎編程、SQL資料庫、Hadoop生態組件等等;

第四點,要有慧心。想辦法找到最適合自己的切入點,找到通往大數據職業生涯的一條捷徑。關於這一點,上面一個問題已有論述,在此就不再贅述了。

只要大家有決心、有信心、有恆心,有慧心,相信大家是一定可以轉行大數據成功的,退一萬步,就算你沒想轉行,或者最後因為各方面的原因沒有轉行成功,你掌握多一門流行的熱門的大數據技術,對你的職業發展肯定只會有好處不會有壞處的;

歡迎大家關注我的知乎專欄「大數據實踐與職業生涯」並留言,專欄會陸續的推出過往十多年的大數據工作經驗總結和我的一些研究實踐成果。如果你是大數據新人,或者想轉行進入大數據領域,或者大數據職業生涯上存在一些疑惑,都歡迎關注我的知乎live分享「大數據人的職業生涯規劃」 、 「數據分析師-從零入門到精通」、「大數據人的數據科學家之路」


我覺得真正有底氣的公司不會在意你生物出身,你當下的能力比較重要。加油!


推薦閱讀:

HDFS對於CAP原理是取捨了哪個?
王家林的技術水平到底咋樣?
在Hadoop 和Spark之間如何取捨?
Erasure Code編碼大文件的問題?
八斗學院到底怎麼樣 ?

TAG:數據挖掘 | 機器學習 | 轉行 | 大數據 |