中國目前數據分析數據挖掘市場情形是怎樣的,機會多嗎?前景如何?

我現在在美國碩士讀business analyst, 學的東西很基礎,就是一些database management的SQL,基礎的python和R,還有data mining 用spss和Google analytics這種做web analytics的。data visualization的軟體像tableau什麼的也學了幾個。

不是很了解國內這方面市場怎麼樣,需求量多嗎?是只有北上廣深機會多一點嗎? 像成都重慶這種二線城市呢?

虛心求知乎大牛們求解,萬分感謝!


這個問題正好涉及到我們公司目前的業務,不邀自來。

對於國內數據分析市場,我們的感覺如下:

  • 市場巨大,許多企業(無論是互聯網的新銳還是傳統的企業)都在討論這個,也有實際的需求並願意為此付錢,但是比較零碎尚不系統化。目前對數據需求最強烈的行業依此是:金融機構(從基金到銀行到保險公司到P2P公司),以廣告投放及電商為代表的互聯網企業等
  • 尚沒出現平台級公司的模式(這或許往往是大市場或者大機會出現之前的混沌期)
  • ToB服務的氛圍在國內尚沒完全形成,對於一些有能力的技術公司,如果數據需求強烈的話,考慮到自身能力的健全以及數據安全性,往往不會外包或者採用外部模塊,而傾向於自建這塊業務
  • 未來BAT及京東、58和滴滴打車等企業,憑藉其自身產生的海量數據,必然是數據領域的大玩家。但是整個行業很大而且需求旺盛,即使沒有留給創業公司出現平台級巨型企業的機會,也將留出各種各樣的細分市場機會讓大家可以獲得自己的領地

對於數據業務,按照我們的理解,簡單將其分為三塊:數據沉澱、挖掘和可視化,每一塊分別對應不同的模式及產品或服務。(數據挖掘業務又被細分為分析、理解及存儲。)下面會進行簡單介紹,其實從我們的業務也可以看到一些整個行業的大致狀況。

數據沉澱

用大白話說就是數據抓取,目前有四大方式獲取數據

  • 網路爬蟲,用Python及Go等開發了自己的爬蟲平台,對幾十個網站進行每日抓取獲得相關信息(詳見:能利用爬蟲技術做到哪些很酷很有趣很有用的事情? - 何明科的回答)
  • Wi-Fi接入方案,我們自己開發了一套完整的軟硬體方案,優勢是超高的ROI(投資回報比),且免費提供給物業管理者,幫助其實現靠網費賺錢以及推廣費賺錢。在與其協商的基礎上,獲得用戶數據。這主要是OpenWRT的開發以及一些智能硬體和客戶端的開發。
  • 提供一些圖像方面的API,進行圖片搜索及人臉搜索,滿足客戶在圖像處理和圖像識別方面的一些需求。開發主要用到一些Machine Learning和Deep Learning的演算法,使用C++/Open CV/Matlab等。
  • 數據服務需求方自行提供。

這部分是按照數據銷售的方式向客戶收費。

數據挖掘

用大白話說,就是利用數據分析產生深層次有價值的理解。基於以上各種方式獲得的數據,我們可以做最簡單的統計分析、用戶及品牌理解、用戶畫像、各品牌或各產品型號之間的關係等等,了解現在和歷史並爭取預測未來。

常用的工具是Python/R/SPSS等,演算法包括最簡單的統計、稍微複雜一些的Machine Learning、現在被捧上天的Deep Learning以及Collaborative Filtering等等。

這部分類似於諮詢服務,向有需求的客戶按照項目收費。數據呈現

用大白話說,就是把分析結果用最美觀和最容易理解的方式(圖標或者圖形)展現出來。目前,我們大概有幾種形式:

  • 網站(兼容PC端和移動端):提供給付費的B端客戶,不對外公開,大致形勢如下

  • 知乎專欄(數據冰山 - 知乎專欄)和公眾號(搜索「數據冰山」和「windhint」):都是純免費的,目的是將一些不敏感的數據和分析分享出去,攢人品賺口碑
  • 一個SaaS的公有雲平台,方便大家把自己的數據利用我們的工具來製作成為便於在網上特別是移動端傳播的圖文報表,即將上線,大致形態見下圖。產品的邏輯很簡單:讀數讀圖的需求越來越強烈,但是卻缺乏這樣的工具或者平台來製作這樣圖文並茂的內容,即使是Excel,也不能製作出適合於網路傳播的圖文內容

常使用的技術是JS+Node JS+MongoDB等等。

這部分主要是賺吆喝和彙集流量,怎麼賺錢目前尚不清楚。

三、廣告時間

最後是廣告時間,我們的網站是一面數據 | 沉澱, 挖掘, 可視化,歡迎喜歡數據的同學聯繫我們,求賢求業務。各種宣傳公司福利好的內容就省去了,簡言之我們有最好的天使投資人也處於盈利狀態,所以有資源做一些更有意思的事情。

另外,除了數據,我們也是一群有趣的人和有理想的人,相信和我們在一起工作是一件有趣的事情,比如:

  • 我們有些人擅長養牛:公奶牛都在幹嘛? - 何明科的回答 以及 中國為什麼不大力推廣牛肉? - 何明科的回答
  • 我們有些人很關注藍領工人,曾經在工廠和藍領工人一起同吃同住:初中畢業就進工廠了,現在想離開工廠,有什麼好的出路? - 知乎用戶的回答
  • 我們有些人關注房價並成功預測深圳房價的暴漲:在深圳工作,應該怎麼樣買房? - 孫競的回答


謝邀,沒在國內工作過,不了解。

不過從我間接了解的情況,現在國內這類職位需求量越來越大。找工作應該還是不難的,待遇也還不錯。至少,我11年本科畢業時候,畢設導師的碩士生(統計碩士)就能在深圳找到月薪1w左右的工作。

不過既然身在美帝,機會多一點,就先工作幾年攢攢經驗,學習下更成熟的運作方式,找准機會再回去唄。比如我有個師兄就先工作幾年回去去了BAT做senior data mining engineer的。另外,Python和R的基礎應用很容易學吧,一個禮拜就突擊出來了,尤其是當你有別的編程基礎時,當然熟練程度要在實際問題中慢慢提高。數據挖掘/分析重點應該是解決問題的模型/演算法,編程實現是順便的事,畢竟不是專做演算法優化的。

共勉。


偏激一點說,在國內,數據挖掘這樣的技術幾乎只能在北上廣,杭 這些地方有用武之地~

整體上來說,數據挖掘無論是工作待遇還是發展前景,在國內算是高薪和比較高端的職位~


需求大,機會多,前景好。


更新,評論搬到答案裡面來:

有四種潛在人選,一是跨境電商業內數據人員,跨電起步時間不長,業內有經驗者很少。二是國內電商數據人員轉到跨電方向,這種要麼不懂英語要麼對國外平台規則及搜索引擎不熟悉。三是數學計算機等專業應屆畢業生,沒有清晰的職業規劃,缺少穩定性缺少職業素養,甚至Excel都達不到普通白領辦公要求,常用的數據工具也不熟練。四是跨電業內其他崗比如運營轉到數據崗,這樣的轉崗本身就應該是經過了深思熟慮的職業規劃思考,看到的數據崗的重要性及發展前景,他們熟悉項目運作,了解運營對數據的具體需要,但是欠缺技術基礎,能解決一些基礎數據需求,但目前對於更精確更大量更深度的分析需求有心無力。

還有個問題就是做分析的多,做挖掘的少,而準確及時的數據來源比 一個好的分析更加難得。

———————————————————————————————————————————

坐標成都,很難招人


教你一個方法,到各大招聘網站,通過搜索自己做一把數據分析,市場需求就出來了。


什麼是大數據,靠大數據賺錢是什麼意思,是否有列可舉? - zhen-liang 的回答

我這裡有個根據醫學人體數據處理擴展到計算複製人在社會經濟上全部行為的計算實現方法,也就是製作出世界上最後一個軟體


一年前還在500強FMCG做市場相關工作。那個時候來賣大數據和市場結合應用的供應商很多。其中有很多應用或案例我們覺得是很有潛力的。可是用起來卻經常覺得操作上有問題。

我覺得其中根源是數據過於碎片化導致每個供應商所擁有的POOL都很小。例如你推廣廣告的,新浪不會分享它的資料,他們自己會包裝一個產品。要看用戶的瀏覽視頻習慣,你也不可能把優土也不會和愛奇藝打通。另一個原因是數據質量。據我了解目前國內還是無法監控的。

所以個人經驗,對於小眾的市場活動,例如一個品酒會,酒店網上交易或者奢侈品高端車,是有潛力呦實效的,但是在大眾消費品端,能做出很漂亮的案例,可實效堪憂。

發展前景總是有的,找到有針對性佔領細分市場的公司更重要。


一個前提,行業差異很大,企業差異也很大。金融業是做的非常好的,互聯網企業一些體量大的也不錯。

其他行業我體會做得都不好。說數據挖掘,2005前後其實就有一波小高潮。但漸漸平息了。

幾個問題,經濟發展太快,實體經濟可簡單複製的商業模式太多,基礎數據管理太亂太粗,行業內建模太沒有沉澱…然後很多市場主體開始嫌棄數據挖掘。

大數據算第二個波次了。我覺得是有潛力的。入金融和互聯網行業,人才需求會偏向數據工程師,互聯網公司會偏於全才。

實體行業會有一些深度需求,但綜合要求高,對統計、商業模式和編程的理解都要深入。

大數據是要下苦功夫笨功夫的。

流行的模型要真實驗證、實證循環測試的,要逐步積累,沙灘起高樓做不到。

若是年輕干一線,多讀表,多做簡單的分布,多做簡單的一元回歸,熟悉數據環境。

你要是開公司當老闆那另論。

先別想著預測,先能解釋業務實體,能夠建立完整的數據邏輯。

還要涉獵相關學科,比如搞零售服務的,初微中微的基本概念要清楚,搞金融的,金融的基本業務流程框架和初級模型要清晰。

別說bat大數據現在怎樣怎樣,人家是從起家就開始玩數據的呀。


我曾經在一家專門處理社交社交的公司,在上海杭州,最後在重慶。從我的了解,目前國內對於數據分析各家其實都還停留在表面,大多把經歷花費在如何給客戶講故事,如何把數據展現的更漂亮,比如我們用數據做了一個H7N9的視頻來動態展現其在國內的影響程度。 對於真實數據背後的故事估計需要數據科學教去分析,社交媒體數據存在著太多的噪點,水軍,各種黑,太多.... 當前運用數據我覺得淘寶應該首屈一指,但僅僅對淘寶自己的數據,所以真實度非常可靠,其次你也可以看看京東的人物刻畫,都是數據分析的結果。 最後奉勸,重慶不適合,上海北京好些,那些地方都是制高點。


我在成都....工作.......data analysis崗,偏運營,這個行業在這邊只能講需求較大,所以從業人員魚龍混雜,很多公司發展都是初期,可能沒有國外或者大城市的一些規模和方式完善。而且一般開始開設分析崗位的都是大公司,將以前的一些人員改組,並沒有真正的經驗,而且很多大公司的被改過來的人員都不具有平常創業公司的動力,所以只能說,並不樂觀。行業還處於大浪淘沙的狀態。

--------

我們組裡的人都分兩派....因為有外來引入的人想改革和新建並努力做,也有本身在公司因為一些原因被分過來並不情願做新工作的,所以....你懂的


python、R、SQL都學了,來找個工作還是不難的


數據分析,數據挖掘都是數據科學的一種應用。

前景就如同20年前的互聯網一樣,是新興事物,新興事物必然會有出生-迅速發展-爆發-跌落-穩定的狀態,可以肯定的是數據科學不會消亡。目前也正處於迅速發展的階段。

舉個我身邊的例子吧,我們公司2013年才成立,專門做數據分析、數據挖掘、BI的工作。公司是三個自然語義處理方向的博士聯合創業的,現在已經獲得幾千萬的融資了~


現在成都那邊發展好一點,重慶這邊才起步,工作環境和工資比不上成都。你可以看一下兩邊的招聘情況


好多公司做數據還是Excel從頭用到底,你說機會大不大!


就零售信貸領域,可以關注兩家准平台級公司,聚信立和量化派。


海關數據分析


數據是好東西,裡面價值很大,就看各個企業會不會分析了。

具體的數據就不分析了,還沒有達到大神的水平。


互聯網行業還是有很多職位需求的


混沌期,有效變現渠道不多。技術是業務的延展,想清楚做業務還是做技術,不足部分找拍檔彌補。

更多數據+商業創業經驗可以關注我的專欄。


別說bat大數據現在怎樣怎樣,人家是從起家就開始玩數據的呀。


推薦閱讀:

馬雲說「將來數據分析會沒有工作」會成真嗎?預計是多少年以後?
如何著手商業數據分析?
如何評價北京朝陽大悅城的數據分析手段及其基於數據的運營?
在家做飯比在外面吃飯哪個比較便宜?
運營一個 App 需要運用哪些數據?

TAG:數據分析 | 數據分析師 |