大數據平台(分散式系統,如hadoop)和數據挖掘從業者人生髮展前途比較?小弟現在研一,不知道專註哪一個?


對於數據挖掘從業者來說,平台搭建和數據挖掘演算法一樣重要,它們是相輔相成的。

相對來說,如果你偏向於數據挖掘演算法研究,可以不用深入進行平台開發,注重平台應用就行


關於這個問題,我的觀點是兩手抓兩手都要硬。

關於大數據平台這個大致屬於工程問題(雖然有一些基礎演算法要實現分散式的版本也需要一些理論,但更多的問題是系統構架),工作著重於構架方面的內容,比如資源調度,任務調度,消息機制,冗餘等等。推薦《大數據日知錄:架構與演算法》了解一下。

而數據挖掘更多的是理論問題,更多關注演算法問題。數據挖掘其他典型的應用基本分為3種,分類、預測、推薦,演算法大多是圍繞這三個應用展開的,當然作為從業者還有一項,就是數據可視化(當然這個屬於工程問題)。如果做中文,分詞是免不了的(軟體很多,但字典才是重點),如何構建一個字典可能是你的工作,如果需要人工糾錯,甚至還需要你編寫一個小型的網站作為內部產品供其他員工使用。推薦《機器學習實戰》這本書,和scikit-learn這個軟體,來了解一下。

關於前途,看題主想走學術路線還是工程路線了。走學術路線很明顯就是要讀個博士專門研究一個問題研究有點名氣,畢業了去個大公司做科學顧問。如果走工程路線的話,我覺得兩者沒太大區別,現在有一個經典的梗,每個公司都宣稱自己是大數據驅動的公司,並且都以為別家公司都做得很成熟了,但其實個個都是不知道做啥。作為技術人員不用擔心這個問題,把自己的技術棧填滿,啥時候都掙錢。如果題主確實對大數據,數據挖掘感興趣,上面的兩個方向一個是構架,一個是演算法,喜歡哪個就從哪個入手,自己感興趣的東西要自己去了解,興趣才是第一生產力。另外附一句《大教堂與集市》扉頁上的名言「要尊重能力,要珍視和捍衛自由,特別是:昆蟲才講究技能專一」


兩者的區別就是做工具,和用工具創造價值的區別。看你個人的喜好,喜歡研究架構,就選前者;喜歡研究問題,就選後者。



選數據挖掘 有門檻。開源平台軟體越來越成熟,可以預見隨著國內大數據培訓機構的興起 會用數據平台的人立馬就會爛大街


都是好職業。。

你能學會那個搞那個。。。

說這個比那個好的,都是外行,胡扯。。。


幾個朋友在做分散式系統開發,幾個朋友在做數據分析。

都挺好的。

分散式屬於純技術,數據分析一般和業務有關。

從生產來說,涉及這兩個的公司,一般是行業翹楚。

兩個有一個略懂,吃飯問題基本就解決了。


如何選擇合適的分散式機器學習平台 - SDK.CN - 中國領先的開發者服務平台


數據平台一般是bi部門在搞,傳統還是sql,只不過加入了elt要用到hive和spark,而數據挖掘主要是演算法崗在搞,分支很細,如廣告演算法,推薦演算法,nlp等


推薦閱讀:

python 機器學習不會很慢嗎?
如何看待摩根大通利用 AI 機器人執行金融交易?其工作原理是怎樣的?
cart樹怎麼進行剪枝?
在可見的未來,機器會不會替代投行員工?
知識圖譜目前亟待的問題有哪些?

TAG:數據挖掘 | 機器學習 | Hadoop | 分散式系統 | Spark |