2017年，這兩個大數據崗位一定會火！

05-06

題圖 -- From 簡書「張震速寫」

文·blogchong

討論哪個大數據崗位會火之前，我們先來簡單的分析一下大數據領域的行情。

具體的大數據的發展歷程，可以參考《閑話國內大數據發展簡史&產業化落地》一文，這裡重點說一下當前的情況。

2016年，互聯網行業遇到了資本寒冬，拋開大公司不說，一些中小型的公司不斷的縮減預算，因為很難融到錢。

但是從大數據這個角度出發去看的話，會發現即使其他類型的技術崗位行情不太好，但大數據領域一直還是不錯的，這一方面國內大數據政策推動的原因，另一方面是中小型的公司想拿到錢那必須有可談的技術故事，是的，那就是數據，或者說數據驅動。

所以，不管怎麼說，17年，整體大數據領域的整體市場需求還是偏良性的(相對於其他技術類型來說)。

但是，受14年開始，大數據培訓市場批量水流線生產大數據工程師的影響，目前大數據需求市場會有些小混亂，所謂混亂是指技術水平參差不齊，包括大量打著大數據旗號的傳統資料庫工程師(這個很大一部分原因也是培訓機構造成的)；企業需求招聘不清晰、對大數據崗位定位混亂。

這種亂象，從身邊獲取的簡歷，各種招聘現象，以及各種大數據討論社群的相關話題討論中可以看出。

並且這種亂象會持續比較長的一段時間，直到接受正統知識體系教育科班大數據工程師們充斥需求市場，降低大數據速成工種比例，以及企業公司對大數據有足夠的認知之後，才會逐漸消失，市場價格才會逐漸趨於良性(當然，那個時候大數據領域的技術福利就會下降了)。

還是以2017年說事，受大數據培訓市場進一步影響，以及受各大院校16年開始往大數據市場池子投放正規軍的影響，低門檻的大數據開發，以及相對基礎要求較低的數據分析類的大數據職位會有一些影響。

總體表現就是薪酬好像不會像以前那般好談了，然後就是缺口也在慢慢的變小，因為市場上絕大部分的號稱大數據工程師的都是處於這種階段的。

當然，能夠上升到諸如大數據架構師這種級別的人，依然是市場的香饃饃。

基於以上這些情況，在大數據領域中，還是有些崗位需求量會走高的。

是的，2017年一定會火的。

演算法以及數據挖掘

當然，這裡指的演算法以及數據挖掘與傳統的可能還是有所區別的，不管是模式還是所使用的工具，或者各種工程化的形式，區別還是蠻大的，可能不變就是演算法的原理了。

國內四五年的大數據發展落地，拋開大些的公司不說，就絕大部分一般公司來說，在基本數據處理，數據淺層價值的挖掘(最典型如報表價值的輸出)這塊已經有足夠的累積了。

那必然會往更高層級去演化，諸如挖掘數據中的個性化，做一些更深層次的預測，以及研究內容的深層價值，文本挖掘、NLP等，甚至是深度學習，人工智慧AI的層級。

這些領域除了比較新的深度學習、AI等，其他其實在更早的時候都有人在研究，那在這裡為何把他列到這裡來說，那是因為個人數據挖掘與大數據關聯之後，很多東西都有其獨特性。

包括數據各個階段處理的模式，應用場景的不同，實際工業生產中演算法設計的模式(最典型如大數據模式下，偏愛於統計分析即樣本數對結果影響較大的演算法)，甚至是演算法最終工程化的模式，使用到的工具，都有很大差別。

最起碼，我個人認為，傳統的數據挖掘工程師與我這裡所說的數據挖掘工程師還是兩類人。

但是，我們也知道，學校里是很難有大數據挖掘這種專業存在的，所以，這個崗位的人才來源有兩種：

懂演算法以及數據挖掘相關東西，補充大數據相關知識結構體系，逐漸適應大數據模式下的挖掘模式。

在大數據領域摸爬滾打足夠多的年份，逐漸從實操中補充數據挖掘相關知識體系結構。

前一種人理論知識足夠豐富，但是在工程化的能力上以及實際應用場景的映射上稍弱，一不留神只能在大公司能找到角色定位，因為中小公司養不起不能實際工程化只會理論的純演算法工程師。

後一種人實操能力會比較強，理論相對比較薄弱，但能根據實際業務場景設計演算法模型，還能負責工程化業務化，這種人在中小型公司吃得開，在大公司估計只能淪為純演算法研究工程師的工程化助手。

但不管哪種，在2017年，都會迎來需求新高，並且在百家齊放的時代，野路子出身的實操數據挖掘選手反倒會更受歡迎，畢竟純演算法研究的人力的成本太高。

數據爬取工程師

或許有個更為熟知的簡稱「爬蟲工程師」。

其實一直以來，大部分人對於爬蟲工程師的認知，或許並不會歸於大數據領域中來，但我個人認為最起碼從16年開始，應該是要歸於大數據體系的。

我記得在《DT時代變革的反思》一文中(這篇是15年寫的，你看現在互聯網開放數據真的是被重視起來了，茫茫多以公開數據起家的公司)，甚至在其他相關的文章中，一直強調大數據時代一個很重要的數據來源，那就是互聯網公開數據集。

在2016年，這個特徵表現的尤為突出，各種公司紛紛把目光定準互聯網公開數據集，以期通過互聯網公開數據，挖掘其中的價值，意圖變現。

在他領域就不都說，在大數據垂直行業，比較典型的就是催生了很多以互聯網公開數據為基礎數據來源的各種數據分析諮詢顧問公司。

關注新媒體行業的，估計沒幾個人不關注的，畢竟沒幾個人不用微信的，諸如新榜(前幾天的2017新榜大會還是蠻轟動的)，其監測的數據應該絕大部分都是通過檢測爬取的方式獲取的。

那麼，在2017年，數據爬取只會和大數據領域聯結的更緊密。

作為大數據整個業務鏈路中的第一環，負責數據源的接入，有什麼理由把人家單獨丟開呢？！

在2017年，「內容價值變現」口號「甚囂塵上」同時，作為抓住內容第一環，海量數據的獲取，數據爬取工程師的重要程度會逐漸被人認可。

當然，與此同時，上面說到的數據挖掘崗位，偏向於文本挖掘、畫像體系構建、NLP之類的，也會更受歡迎。

所以

是的，2017年，這兩個大數據的崗位一定會火起來，不信，我們到時候瞧瞧(反正不准你咬不了我哈哈)。

其實還有更大的證據證明這兩個崗位一定會火起來。

我司，俺部門(大數據部門)招數據挖掘&爬蟲工程師，當然還有大數據開發工程師，你看連我司都招了，大數據市場這幾個職位能不火么。

好了，不扯，說正經的(好像說著上面都不是正經的樣兒)：

1、需求數據挖掘工程師一枚，不要純搞演算法理論的，需要有演算法分散式工程化能力，需求文本挖掘項目經驗。
2、需求大數據開發工程師一枚，三年左右大數據技術背景，各種hadoop生態組件都玩過點，能夠進行spark應用開發，會點java後端東西，附帶點數據挖掘技能更佳。
3、需求爬蟲工程師一枚，java爬蟲、python爬蟲體系都無所謂，需求能夠規模化、自動化爬取數據，會點java後端技能更好，有微信、微博數據爬取更佳。

有意向的，或者有推薦的，進一步諮詢的，關注「數據蟲巢(ID:blogchong)」，直接後台留言，或者本文留言即可，坐標：深圳·南山。

如果覺得上面的觀點有用，歡迎幫忙轉發，不謝~~

最最後，講真，這兩個方向在大數據領域真的是有市場的，挖掘演算法類的就說了，跟不少獵頭類的朋友也都聊過，一直是剛需，而爬蟲類的，應該會被逐漸重視的，因為數據獲取的模式逐漸在改變。