大數據是不是泡沫?

目前大數據的火熱程度可見不一般,大數據真的創造如此高的價值嗎?或者說創造價值的範圍有那麼廣嗎?以置於在很多三線城市的運營商都在做大數據項目。實踐經驗中發現,實際投入成本遠遠大於其中收益。還是說有非直觀的,隱性的價值?

如果是泡沫,還能持續多久,破滅後會是一翻什麼行業景象?


第一次在知乎上回答問題,引用一下權威吧。

有一定泡沫.

-------------------------Michael Jordan(不是打籃球那個)的答案

先說說他討論這個問題的資格。作為IEEE fellow,伯克利的Jordan教授是機器學習世界範圍內最被尊敬的專家之一,在2013年還被邀請在美國國家研究委員會對相關領域的報告里作序總結。

這裡有全文:Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts

他觀點的骨架:

1. 目前的大數據給出的結果可靠性太低,如果急於應用到實際中,就好比是土木工程都沒學好就開始造橋,結果只能造出「豆腐渣工程」

  • 一大波「false positive」(假陽性)正在接近,因為數據增長的速度不夠支撐我們把大數據到處亂用的慾望
  • 作為一個科學,不夠嚴謹(原文是「沒有error bar」)。不像造橋的土木工程,經過多年的積累,明確地能告訴我們什麼樣的情況可以造,什麼不可以。而大數據沒有。

2. 目前在computer vision領域進展還很小

  • 只能在非常有限的範圍內識別,比如人臉識別這樣非常具體的引用(雖然這個不是直接說大數據,但是可以看出,作者認為真正做到萬物都sensor還很遠,大數據的採集能力終究還是有限的)

3. neural network根本和人腦的neural network不是一回兒事,我們對大腦的理解根本沒到可以引用到計算機科學的程度

  • 現在deep learning所採用的back propagation技巧,明顯不是大腦的運作方式
  • network的結構都完全不同,什麼對數據的模糊性處理已經達到人腦的境界云云,主要是媒體扯談

對他觀點的總結:

有些媒體為了讓公眾容易理解打了些比方,但是這種比方造成了太多誤解,進而造成了太多hype(誇張的大肆宣傳)。大數據還是一個沒有足夠嚴謹程度的科學,可能有一定的概率做出一些有用的預測,但是使用不當,過分過早地依賴,則會造成災難性的後果。

很多時候大家過早對一個技術爆發熱情,寄希望她可以改變世界,如果短時間沒有成果,有可能熱情一下子轉冷又覺得這是個錯誤,加速抽離給這個技術的資源。顯然Michael很擔心現在公眾對這個技術的熱情,並不是基於對這個技術的理解,從而有可能會經歷這樣的態度轉變。但是他認為這個領域是現實存在的,很多重要的應用,假以時日,是會創造價值的。但是現在很多媒體宣傳,甚至投資行為,都是泡沫。

最後他覺得,如果他有10億美元,一定會投入到natural language processing裡面去。畢竟這是人機互動很重要的一個方面。

---------------------------

不是這個人哦:

是這個人:


大數據技術本身不是泡沫。

但是成天把大數據掛嘴邊的人是泡沫,這些人去哪個領域,哪個行業,哪裡就是泡沫。


引用大數據專家傅一平的文章,從IT技術角度探討,深受啟發。

正文

----------------------------------------------------------------------------------------------

很多公司在建設大數據平台,很多公司在研發和推銷自己的雲計算和大數據平台產品,從Openstack,Docker,DCOS到Hadoop、MPP、NOSQL等等,從IaaS、PaaS、SaaS到炒作到天的開放平台,亂花漸欲迷人眼。

作為企業搞IT的人,的確有很多新的東西要學習和建設,投資也迎來了一波高潮;作為研發和銷售大數據產品的公司,當然要不為餘力的推銷自己的產品,佔領先機很重要。

但是,在喧囂之中,還是要理性的回歸價值思考,High翻天的新技術概念和平台建設,到底給予傳統企業的業務人員帶來了什麼價值?給我們的營銷一線的人員帶來了哪些好處?

我們企業的最終用戶,真實感受到了大數據帶來的變化了嗎?

IT可以提自己的傳統架構被新的架構替換了,牛逼的實現了並行擴展,但這些對於業務人員,有多大的價值和感知?

IT在存量上的搗鼓,於我何干?系統不夠了擴容,是IT必須要做的事情,至於採用什麼架構,業務也不關心,有什麼值得狂歡的呢?技術能否給我業務帶來新的價值,才是我關心的。

IT也許可以提自己是在做長遠的事情,沒錯,但再長遠的事情,也需要兼顧短期的業務價值創造,沒有短期的持續實踐,很難說有未來的價值創造。

如果業務人員在起步的時候,僅僅是個旁觀者和看客,我們的IT驅動的大數據戰略是否有些問題,大數據的狂歡,似乎缺少了主角在場,讓技術和業務這個平衡似乎傾斜了。

阿里的技術是跟著業務要求起步的,沒有這個技術,新的商業模式根本沒法創造,因此技術和業務的發展是相輔相成的,它應該達到了一個很好的平衡,舉個例子,如果沒有牛逼的多維分析能力,所謂的淘寶魔方這種新的業務產品不可能存在。

但傳統企業有嗎?似乎在技術上的關注遠遠超過了業務,大數據在業務上除了存量的改造,比如CRM改造成了雲,數據倉庫升級到了MPP或hadoop,我們對於大數據這項非常關注業務創新和運營的事業,似乎點到為止了。

企業IT團隊與IT合作夥伴之間的狂歡,需要讓更多的主角能夠參與進來,比如業務人員,一線人員、建模為長的合作夥伴等等,這決定了大數據平台能否在建成時刻,在業務價值創造上也能開始起步,或者有所建樹,改造一把存量,值得點贊,但絕對只是個開始。

首先,需要從關注大數據平台建設到大數據運營。

假如公司在大數據平台的建設上投資很多,那至少要划出很多在大數據運營上,30%?亦或40%?,後期則更甚,不僅僅需要挑選好的大數據平台廠家,更應該挑選擅長建模的合作夥伴,挑選擅長基於新的技術創造新業務場景的合作夥伴。

大數據平台建設完成時刻,就是大數據運營的開始,是真正創造價值的開始,所謂的運營絕對不是僅僅的平台運維,更多應是業務運營。

很多公司在大數據運營上的一毛不拔,是有深刻的原因的,也是無奈之舉,大數據顯然是技術驅動業務多一點,技術上可能有些人才可用,但對於大數據數據和業務兼而懂之的人才卻極度缺乏,傳統業務人員又顯然還在門外,因此,造成了這一種不平衡。

同時,大數據業務創新風險性極高,想當前,真正能賺錢的大數據商業模式有幾個? 就知道其實何其艱難和具有挑戰性,創新大數據運營的錢當然可能打水漂,不如採購硬體和軟體那麼實在。

但是,既然要搞大數據,就應該想到這個風險,否則,幾年後,除了同質化非常嚴重的一堆技術架構平台,各個企業的大數據的差異化競爭優勢又在哪裡?別提技術架構先進性,太容易複製了,傳統企業也不可能像阿里那樣程度的自主研發。

開源大勢所趨,沒有秘密可言,這種微小的領先支撐可能不到1-2年。而大數據建模及新的商業模式才可能是差異化競爭優勢所在,所謂數據創新無極限,這個差異化也無極限。

當前,很多擅長平台的合作夥伴,也打著業務的旗子來,提什麼客戶洞察啥的,在架構藍圖上永遠畫著業務和服務,但到底業務服務怎麼做,天知道?真正對於業務有點理解的又是何等的鳳毛麟角。

有人問我,大數據最大的痛點是什麼,我總是回答,業務創新,技術問題總能逐步解決,但業務,的確太難了。

舉個例子,就能明白很多公司對於業務的理解能力了,某個客戶說,你給我一輛5個輪胎的車子,然後這個技術公司真得研發出了5個輪子的汽車,但客戶真正需要的,其實只要增加一個備胎。

當前業界有有實力、有運營能力的諸如建模等商業合作夥伴很少,但無論如何,還是要努力尋找,大數據不能缺了這條腿,或者就自己培養,這是當務之急。

一盤象棋,有再牛逼的車馬炮又如何,於百萬軍中取上將之頭,才是王道。

其次,大數據開放瓶頸不在開放平台,而在思維局限。

大數據平台開放現在提的多了,什麼IaaS,PaaS及SaaS,但提的再多的規劃和概念,都不如將一張有價值的大數據表,開放到一線讓人真正用起來有意義。

通過FTP開放一個文本文件也叫開放,搞個大數據PaaS服務也叫開放,前者可能不安全,可能多了就管理複雜了,而且可能變得冗餘,但現在才幾個需求啊,PaaS這類太重的平台,只有系統和數據規模達到一定程度才能體現出其價值,平台永遠只是手段。

但當前總想著把平台打磨的完美無缺,枉顧一線甚至不知道這個舞台的存在,其實再破的舞台,也能跳舞的。

99%的企業不可能做成BAT吧,可能也等不到大規模使用的時刻,所謂的開放平台,到底有多少是真正承載了大量業務量的,有多少是用來當白老鼠的,而且這類開放平台,由於太面面俱到了,每個細節處,都是問題。

沒有實踐的任何開放平台和組件,都值得懷疑,從數據採集、數據管理、數據挖掘、可視化不一而足。

比如一個數據管理PaaS平台,業界要折騰多少點年才出來一個靠譜的東西,其他的,所謂客戶洞察諸如此類的,只能笑而不語了。

不管是白貓還是黑貓,抓到老鼠就是好的,PaaS並不是不需要,但開放從沒有必要從PaaS開始,也不用想著哪天廠家會給你一個驚喜,總是要一點點起來。

這個就像當年很多牛逼的有方法論但沒實踐經驗的諮詢公司來到你面前大談特談如何避免離網那麼幼稚。

最後,企業的大數據的普及是如此重要,不要等。

不可能依靠一個部門或者一隻IT團隊實現大數據的創新突破,最終一定要走向普及,因為群眾的智慧是無窮的,搞IT的往往自以為是,蒙頭造車,對於一線市場的殘酷性完全不知道,而一線人員對於業務才有絕對的發言權。

必須讓一線知道大數據有哪些能力,讓一線知道如何使用,讓一線自主決定一些數據的東西,授人以魚不如授人以漁,IT需要做好這個平台,而讓一線在上面歡快的跳舞。

當前阻礙企業大數據普及的有以下一些問題,需要得以解決:

一是一線的一把手的決心,對於一些傳統企業,職能型的組織機構、陳舊的機制、僵化的流程的確是限制大數據普及的障礙,但筆者認為關鍵還是在思想層面,管理者的視野和勇氣決定了大數據能否走出第一步。

傳統企業,屁股決定腦袋很正常,我們很多優秀的管理者,在業務上擁有豐富的經驗,覺的這個不靠譜的想法很正常,因為太少的成功案例,大數據是大忽悠也不是空穴來風。

筆者是搞實踐的,說句良心話,原來對於大數據是否能創造實際效益也有懷疑,雖然自己搞過挖掘,但對於建模的價值也是質疑的,因為自己以前建的並沒有帶來很好的效益。

但還是要往前看,經驗主義的確害人,很多企業的數據已經到了一定的程度,基於大數據是可以發揮很好的價值的,所以覺得沒價值,更多在於自身的思維局限,缺乏創造力,習慣於按習慣做事,這是致命的。

大數據不同於傳統業務,其創新性,長期性,迭代性都是傳統方式無法比擬的,未來是演算法的時代,希望能理解這一點,

二是一線普及的手段要加強,傳統企業應該有個獨立的組織去承擔這個職責,無論是宣傳、培訓或落地的指導,沒有組織上的創新,很難,大家都知道「星星之火,可以燎原」,但星星的確很難找。

因此,筆者特彆強調組織和運營的重要性,無論是自己,還是依靠合作夥伴,務必採取培訓、現場駐點、課題安排等形式將已有的平台能力,數據能力,使用方式,建模方式,操作流程等技能傳授給一線人員,這個工作的艱巨性遠超想像。

但看的到企業,有幾個真正去做了呢?

事實上,傳統企業較互聯網企業,普及落地大數據的難度更大,因為除了機制和流程,在人員結構、地域上也有巨大的差距,比如互聯網企業的人員天然就可能有數據的血液,而傳統企業不一樣,因此如果某個傳統企業普及成功,更值得喝彩。

還有,運營是講究方法的,沒有數據證明,就不要相信任何運營的效果,比如以前我們搞了多次百人的實操培訓,但通過租戶平台發現沒有模型在創建,說明培訓工作是失敗的。

大數據運營,也要通過數據說話,不要想當然,要有打破砂鍋問到底的精神,雖已在路上,但革命遠未成功。

三是尊重大數據的客觀裁決,收益是唯一評估標準,不要奢望搞個大數據樣板工程,它沒法改變企業,還是要講究實事求是,從小事做起,它是潤物細無聲的,起步的時候,大都是探索性的。

比如做一個存量親情網的拉新模型,需要去努力識別社交關係,需要一線配合做不少驗證工作,需要不停調整模型,同時大數據不僅僅是一個模型的事情,還涉及一線取數模式、營銷模式、人員職能等各個方面的改變。

大數據的普及實際就是跟傳統方式博弈的過程,這個急不得,要向一線證明大數據有用,得有真本事,經得起實際的檢驗,也非一日之功,一線很務實,沒效果,就一邊玩去,一邊玩去並不是鄙視你,反映的是市場很骨感,一線不相信概念和繡花枕頭。

在企業內部的大數據實踐中,實際上,並不是沒有需求,而往往是大數據的支撐能力不夠,因為它面對的環境太複雜了,涉及業務、數據、平台、產品、建模、安全等各個方面,一線人員的經驗是值得尊敬的,我們的模型有時候甚至沒有經驗規則來得可靠。

傳統企業用好大數據,難度遠超互聯網,對於大數據綜合運營的能力要求更高,互聯網企業招聘一個建模師可能短期就能做網頁A/B測試了,而比如運營商等企業,招個建模師首先要做的是熟悉企業的龐大的業務規則,理解營銷的場景,面對參差不齊的數據質量及不完整的營銷評估數據,因此,能力的挑戰巨大,這個是無法迴避的。

但無論如何,我們評估大數據成功的標準,始終是給一線帶來了多少實實在在的價值,而不是提建了多少平台,性能有多麼牛逼,這個不以人的意志為轉移。

起了個勁爆的題目,並不是否定大數據平台的建設,而恰恰是希望在萬馬奔騰建設平台的時候,不忘初衷,想想後續的路怎麼走,如何才能與業務形成良好的銜接,讓這個平台產生新的價值,因為就像當年的BI一樣,大數據似乎在相當長的時間內,需要以IT為導向的。

但如果只想著延續過去,在大數據業務運營上不作布局,那麼,大數據平台的價值,就僅限於一個類似雙11的支撐數字了,那是很可悲的事情。


是不是泡沫不好說,只要數據真的能有幫助不就好了嗎?看下這篇文章對你有沒有幫助吧,《大數據是概念、泡沫,還是第二次啟蒙運動?》

「數據為王」的時代,得數據者得未來。大數據不僅意味著信息爆炸時代產生的海量數據,更意味著從無盡的數據中發現商機和價值的能力。

日前,海致BDP聯合創始人兼總裁胡嵩在「一刻TALK」活動上,用一個個現實場景事例,講述了「大數據」這場啟蒙運動所帶來的時代變革。

1、大數據無處不在

從國防安全到衣食住行,大數據早已滲透到我們社會生活的方方面面。

胡嵩在演講中既列舉了美軍追捕本拉登、波士頓馬拉松爆炸案等反恐和國防大事件與數據的聯繫,也描述了大數據在出行、外賣等日常生活中的應用。

2011年5月本拉登被美軍擊斃,大數據在追捕本拉登的行動中起到了決定性作用。

大數據幫助警方迅速定位波士頓馬拉松爆炸案的嫌犯。

除了反恐和國防,大數據也能幫助理解日常生活。

2、什麼是大數據?

胡嵩在演講中強調,目前大數據的概念並沒有統一的定論。通常,大數據是指大小已經超出了傳統意義上的度量,普通的軟體工具無法儲存、管理和處理的數據。

大數據之所以產生,是因為今天無處不在的感測器和微處理器,其實所有的設備或者機械都可以留下數據痕迹,這些痕迹表明了他的性能、位置或狀態。

導航、社交、運動等APP都是海量數據重要來源。一個洶湧澎湃的「大數據時代」正在猛烈敲擊著全人類的大門,其影響已經遠遠超越了互聯網和商業本身。

3、數據安全需要制度的籠子

胡嵩表示,數據就是資產,也是一把雙刃劍,關乎的不僅是金錢,有時候甚至關係到人命。

徐玉玉事件背後凸顯的是嚴重的數據安全問題。

美國人對控制個人信息的能力普遍缺乏信心。

不過,數據安全不應該成為因噎廢食而去迴避數據的作用的原因,客觀上也不可能繞開數據去談社會發展和日常生活。因為對數據的理解和掌握是人類文明進步的標誌。

黃仁宇在《萬曆十五年》中將中國明朝未能走向資本主義歸結為中國人「不能在數目字上管理國家」。

總體而言,與發達國家相比,我國的政府數據公開程度還有相當大的差距。

收集數據、使用數據、開放數據,都是大數據時代我們需要面對的挑戰。

這三大挑戰,也是我們在大數據時代徹底摘掉「差不多先生」文化標籤的重大歷史機遇。如果在這個數據意義凸顯的時代,我們還抓不住這些歷史機遇,繼續漠視數據、拒絕精準、固步自封,等待我們的,還將是一個落後的100年。

從這個意義上來說,大數據思維的滲透和基礎工程建設不亞於一場「啟蒙運動」。


-

謝邀。

三年前剛看到這個問題,或許還有些討論的空間;

三年後再看這個問題,答案已經不辯自明;

希望再過三年回頭再看時,就像哥白尼的「日心說」一樣無需討論。

----------------------------------------------------------

「日心說」1543年由波蘭天文學家哥白尼提出

但由於條件有限,他只有推理無法提供數據

所以沒有什麼人重視這位先驅者的假說

而後1563年丹麥科學家布拉赫繼續證明

花費數年收集到大量天體運行數據

但遺憾的是並沒有從中發現天體運行規律

依然無法對「日心說」提供有力的證據

直到1609年德國科學家開普勒從這些數據中發現

行星繞日的軌道不是圓形而是橢圓形

成功解釋了過去解釋不了的現象

這才讓全世界相信了「日心說」

開普勒由此創立了著名的行星運動三大定律

獲得「天空立法者」的稱號並廣為傳頌  

-----------------------------------------------------------------

簡單來說:

哥白尼建立了「數據模型」

布拉赫提供了「數據」

開普勒進行了「數據挖掘

跨越了半個世紀還原的真相,如今可能只需要幾個小時,這「泡沫」怎能不讓人感慨。

以上

-

如果有更多問題,歡迎來我的Live中交流:Han Hsiao 的 Live -- 點數成金:如何從數據中發現金礦?


引用下大牛Simon Matthews的話,我覺得很好的表達了:

「Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too」


從日本現在的應用現狀來看來講不是泡沫。

能不能別說國外誰誰誰說什麼了,

說點自己做項目時 實實在在的感觸。

宏觀上的它泡不泡沫和我們沒什麼關係,他終究只是個解決問題的手段。

而用他「解決商業課題」才是我們真正的目的。

而這其中的過程和他「是個什麼」或者「怎麼樣」都行。

不是說他「不泡沫了」就到哪能解決問題,

或者他「很泡沫」就肯定收益甚微。

(大)數據一直以來就在被各行業運用,

問題是光靠它什麼都解決不了,你能指望一個工具,一種手段幫你幹什麼呢?

都怎麼用呢,看什麼呢,

看你最後是否解決了商業課題,併產生了效益,這才是最終的目的。

所以大數據不是一個環節(比如「拿數據敘述客觀事實」),而是各個環節相扣,

這個相扣要扣到: 對方說 好的現狀我知道了,然後呢?最後你給出什麼樣的提議或解決方案?

有泡沫就是沒能很好的去解決問題,有個很高大上的開始,華麗的經過,和摸不清頭腦的結果。

然後由於我們不是經營者,很多企業經營深層的東西根本摸不到,也領悟不到,

於是乾巴巴的去解釋數據後面的行為,去解釋現狀,

其他什麼也做不了,(或許也有不敢做的成分在裡面)

於是重複循環這一錯誤。

所以不是「單純的靠大數據就能讓大家皆大歡喜」

而是「加上這些年越發成熟的大數據這一手段,大大加速了大家皆大歡喜的概率」。

也就是說(大)數據分析一整套體系,能很好的為解決問題提供支持。

注意是支持,不是單憑它什麼都解決了。

還有運用大數據可以看到很多決策時根本想不到的情況,可以加以抽出並進一步分析。

再來點跑題的

大部分企業解決較平常的商業問題都是通過不斷的試錯,

但有了企業(大)數據分析做指導,錯的概率會減少,效果會更有針對性更好一些。

當然分析了一通,結果給出的東西聯繫起實際來得到的知識很模糊,這時候就別急於應用於實踐,先留下這部分模糊的知識。

也就是說:不要「為了分析」而去分析,也不要「覺得不實踐就沒有意義了」而忙動手去實踐。

在很多東西不清晰的時候急於應用結果,屬於本末倒置。

挖掘和分析不是目的,「通過挖掘和分析真正的理解了現實」,「得出的知識很清晰」 從而令顧客「改善了經營」才是我們想要的。

所以?所以沒商業sense,不領悟marketing,不去現場, 搞出來的東西高到摸不著天,給出一通不接地氣的解決方案,客戶也不傻,當然他們就會覺得很雞肋。

理解了這個就能把所謂的「大數據服務」做到不那麼水,也就是說能為顧客創造更多的利益。

那時候即使全世界大部分人都說他無比泡沫,

但只要你能用它創造利益,又何妨呢。

現場經驗萬歲。


把大數據搞出泡沫,是因為站錯了角度。

我們錯誤地把互聯網巨頭的世界套在自己身上,哪怕並不適用。

互聯網巨頭定義大數據,一個關鍵點是,數據量一定要大,要大到常規資料庫無法處理。於是幾乎所有人都認為,大數據技術就應該這樣,沒有PB級的數據,都不好意思跟人打招呼。很多企業,沒什麼數據,也要強行攢數據,比如網上爬取,然後假裝大數據公司。

這其實是很大的誤解。互聯網公司,數億級別的用戶,天天產生數據,自然會出現海量數據,自然需要解決相應的問題。於是他們站在自己的業務角度,定義了大數據。

然而,很多企業並沒有PB級的數據。有時候,GB級的數據就已經讓人頭疼。處理好這些數據,才是有用的大數據技術。

處理不同的大數據問題,需要的工具也不一樣。能用最小成本解決問題,就是好技術。

對我來講,背單詞很痛苦,特別是GRE辭彙。自從用了百詞斬(一款好用的APP),背單詞變得容易多了。百詞斬就是好技術。

對諮詢公司來講,統計大量數據很痛苦。自從用了Excel自動化,統計變得容易多了。Excel就是好技術。(參考Excel 到底有多厲害? - 何明科的回答@何明科 )

對投資公司來講,收集金融數據很痛苦。自從有了Wind終端,收集數據變得容易多了。Wind就是好技術。

所以大數據技術是一個相對概念。對於某個團隊,業務相關的數據量太大,很難處理,於是要藉助新技術。這個技術就是大數據技術。

獅子跳的懸崖,兔子跳只會粉身碎骨。互聯網巨頭玩的大數據,其它公司強行模仿,就會產生泡沫。


謝謝邀請。

這個問題要分布對待,裡面有泡沫,但是也有實實在在取得業務價值的案例。那這個問題如何來診斷和分析。

我們看到,對於大數據這個概念沒有出來之前,其實對於大型電商平台,電信運營商,包括大的金融行業已經在做類似大數據方面的事情,以解決海量異構數據下的實時性問題。這些都有明確的業務場景驅動,用傳統的一些技術解決起來困難,針對這些有明確業務場景驅動的項目本身並沒有太多的泡沫。可以看到的是大型的電商平台,運營商或金融機構立項或研究做的,解決內部大數據場景下問題的的項目,基本還是有實際的業務參考價值。

還有一種就是完全是迎合大數據概念的,本身就不存在需要大數據的業務場景,由於大數據炒的火熱,原來存在的各種應用都冠以大數據的名頭。但是當仔細分析後發現一個是本身不存在大數據標準的業務場景,一個是我們提出的目標本身就是虛擬的並不是真實客戶需要的目標。對於這類項目存在極大的泡沫。


我們談大數據,就像男人談那玩意,似乎不加一個「大」就顯得不夠用似的,但騷年你要明白啊,科學證明,管不管用,還真不靠大。

大固然可以吹噓,但重點你還得問問家裡的媳婦兒那啥感受吶。

企業利用好數據修鍊好內功才是重點,大數據是,小數據也可以是,深度學習是,普通數據分析也可以是。什麼時候咱們少談大數據,多談數據科學多談實踐落地才是正途。


即使是泡沫,即使有一天會破,損失的只是一些投資人,而泡沫堆起來的是整個行業基礎,很多很多人是受益的,尤其是上進的中產階級。

九十年代美國互聯網泡沫,留下了谷歌這些社會資產,留下了大批擁有技能的從業者。

泡沫,對擁抱改變的勞動者是大大的好事。

如果你也有錢投資,我的勸告是,連學生和大媽都瘋狂進入的投資領域,一定不要去湊熱鬧,比如現在的股市~~


長文乾貨預警,多圖預警,手機黨退散,馬桶黨退散。

我的結論可能會招來部分業內人士的不滿,所以事先聲明,以下所有僅代表我個人觀點。

這段時間非常密集的縱覽了所有大數據的公司,自己分析了各個環節的商業模式,也學習了部分技術,還有通覽了市場需求情況,時間關係,演變的可能性。

因為我有自己的分析模型,並且這套模型回測過去的無數科技行業和互聯網行業都是很準的,這次用了這個模型來套用了一下大數據。

最終得出一個結論:

大數據不僅是泡沫,而且是相當大的泡沫。

當然還有一個次結論

大數據的確是未來,但回報率相當堪憂

裡面很多環節,都隱藏著極大的危險,無數決定聰明的玩家,都會被這股浪潮吞沒。

當然,如何成為最後的贏家這個方法還是有跡可循的。

我一步一步展開

首先我們來看大數據概念的全景圖:

美國:

國內來源新一點,是2016年新出爐的:

這裡面的公司,我基本上一個一個看過去,有些網站已經欠費關停了,有些一看就知道前景堪憂,有些產品結構非常透明,門檻超低,一兩個人就能做出來。

先說為什麼是泡沫,這裡面說的是大部分業態,當然肯定有業態是健康的:

大部分大數據的環節,是輕量化、工具化的,這些大多數都得死,因為上不著天(直接客戶關係),下不著地(用戶結構和粘性)。

比如說可視化工具,就是我上面說的,產品結構非常透明,一兩個人的小團隊就能做出來。

又比如說採集工具,同樣是這個問題。

所以我們可以直接下結論:所有的數據的輕量化工具全都得死。看到這句話的,又恰好在專註於輕量化工具的團隊,建議你們好好考慮一下可行性。

先說一個問題:這個比較核心

1.數據到底值不值錢?

我現在可以明確的說,佔全部數據量90%以上的的原始的易採集的數據非常不值錢。

為什麼呢?

爬蟲這個東西,我一開始不是太懂,但是花了幾個小時,基本上通了,無論是用python自己寫一個小型的,還是直接用現成的各種軟體,都是很快就可以部署並開始採集。

中國有一兩百萬的程序員,還有外圍的稍微懂點編程的小站長,另外爬蟲軟體的出現可以讓一個大學生隨便花點時間就可以學會採集。

所以,易採集,門檻低是第一點

第二點是什麼呢

就是數據的可複製性導致其廉價,尤其是非結構性的數據

這個不用解釋了吧,比如你辛辛苦苦寫了個網站源碼,或者辛辛苦苦手動錄了一本書,你放淘寶上買個一兩百,剛賣出一兩個,你就會發現隔壁出現了10塊錢的,5塊錢的,1塊錢的。

所以,數據源這塊面臨很大的問題。

哦對了,我們換個角度,其實一目了然了,當然這種方式不嚴謹,權當娛樂了。

所以個人認為,數據源這塊,最後會剩下一些免費為主的API介面,和幾個半死不活的所謂數據交易市場,僅此而已。

而對於下游的用戶,他們更情願按照自己的需求自己去採集,除非工程浩大的數據,才會經濟上權衡後決定是否會買。

所以我前面專欄里有篇文章,說我只做這個環節,我現在正式承認,我當時的考慮的確錯了。

2.下面來看第二個環節,就是分析和可視化。

之前可視化這塊已經被否掉了,現存的可視化產品已經有了數百種了,而且他們都是免費的。

來看看分析,分析這塊也有兩種,一個是開發一套工具或者軟體,讓客戶購買,並且可以為他們做好構架。

另一個是建一個分析平台,讓企業自己進去自定義。

這一塊,我比較看好國內的一家,之前也在知乎看到過,這裡就不給他們打廣告了。

首先工具軟體這一種,我可以肯定:中國肯定行不通,美國或許行得通。

第二個就是在線分析平台了。

其實這個是很靠譜的方向,為什麼呢?

就現在來看,在線分析平台其實本質並非大數據,而是一個在線協作系統,在他之前,早就有諸如印象筆記,明道這種誇端的在線協作平台獲得了市場的認可。

這裡放個Dashboard界面,我是很看好這家公司的,甚至一度考慮要不要也往這個方向去做……

應該說,現在除了最前衛的互聯網和電商企業,大量的實體,中小企業和事業單位都需要這樣的數據分析工具。

但是這個工具還不夠。

我這裡提出一個概念,就是全端多級用戶的數據分析平台,包括採集端和分析端,這個絕對是未來的方向。

為什麼呢?

從現在來看,大量的數據採集是線上的工作。

而其實,在冰山下面,也就是我們的潛在客戶中,他們的數據採集恰恰是線下的。

比如醫院的病例,比如考勤表,比如客戶回訪記錄。

也就是說,平台要做好,一定要做全端,要有採集端。

同時呢,因為全端平台這種產品其實是挺透明的,客戶直接用兩家的demo和價格表對比一下,高下立見。

數據分析在這個環節,我們可以得出一個結論了:

單純做可視化等等輕量工具肯定沒有出路。

做全端的全方位數據分析平台能解決未來的大需求,但競爭仍然很激烈,最後能剩兩家盈利都算樂觀的。

其實,還是那個老話,有時候老老實實開發起來,幾個互聯網巨頭分分鐘抄了你的,你一點辦法都沒得。

我們完全可以判斷,3年後,出現網易雲分析,百度雲分析,阿里雲分析,騰訊雲分析。(當然這些基本都有雛形或者成熟的嫁接體了)

3.插一個演算法環節的思考

演算法,包括機器學習和人工智慧這塊,其實是很有誘惑力的,因為這塊是技術的最前沿,如果說大數據是基礎設施建設的話,那麼演算法和人工智慧就是正在建設中的摩天大樓。

但是,演算法同樣有兩個問題:

發明演算法(從0到1發明而非優化)的人沒有得到多少好處,演算法極易抄襲複製。

高級演算法即使不斷地產生,現有的計算力也無法跟上。

第二個如果實在不好理解的話,你可以去玩《鋼鐵雄心3》,玩蘇聯,然後部隊全部交給AI託管,你會發現,蘇德大戰一旦打起來,你的電腦就卡成翔。

所以我對這個環節的看法是:超前且吃力不討好

4.最後談談BI這塊

這塊可能是大數據概念里最接地氣的一環了。

其實BI早就開始了,可以說早在1999年salesforce成立時,大數據應用這一塊就正式開跑了。

而BI這一塊的特點就是:垂直、細分

比如我做醫療的,那我就只能專做醫療的,我要去做重工的,產品不兼容。

即使我努力開發了跨行業的產品線,勢必會被各自行業更專註的玩家打敗。

為什麼呢?因為行業信息不互通,一個行業只認一個行業的。

另外談一點,BI的前景,我感覺要比分析這個環節大很多很多。

為什麼呢?因為人或者客戶,喜歡解決方案,不喜歡客觀事實。

他要你直接幫他解決問題,幫他提高銷量提高效率,而不是冷靜的告訴他這裡如何如何,那裡如何如何。

宅男們需要你告訴他怎麼樣才能追到女生,而不是冷靜地告訴他女性的性格分布,心理特徵。

另外,BI這塊也將是一片混戰,群雄逐鹿,以前的諮詢公司,ERP公司,互聯網巨頭,財務公司什麼的都得殺進來。

5.插兩個題外話,有兩個方向,可能是穩賺不賠的

一是做大數據方向的自媒體,坐擁流量收益,賺點廣告費。

二是針對二三線城市客戶的服務模式,有點像前些年的建站服務和SEO服務公司,利用信息不對稱賺錢

再補充一些結論:

1.如果你是個5人以下的團隊,並且立志於做一個很好的小產品的話,建議你們不要繼續了,因為最樂觀的前景就是誰誰買了你們公司,但是可能性極低,或許會有資金支持你們,但我相信資金很難陪你們走到最後。

2.最後的生存者只有三種類型:A全環打通的巨無霸(很可能仍是BAT)、B客戶關係牢固的政企服務者、C先發優勢帶來用戶基數的先行者,以市場地位逼退其他覬覦者。

希望會出現第四種:D產品驅動,並且性價比一流的良心公司。

點名必死的模式:

1.非結構性數據交易平台

2.輕量化工具

看好的模式:

1.全端(採集端、分析端)的數據分析平台

2.細分且能實際解決問題給客戶帶來效益的BI

3.無論任何形式,吃政府紅利的

另外還是要聲明一下,這些碎片化的分析,請僅作為參考,不要當做指南,因為說不定坑了你呢,哈哈。

最後一句忠告:不要為了做大數據而做大數據。


首先:所有泡麵的封面都是:圖片僅供參考,詳情以實物為準!

你不會因為封面與麵餅長得不一樣而拒絕食用速食麵。

其次:你們學校的黨支部開會傳達思想有幾個能聽得進去的?

他不會因為你聽不進去就不設立黨支部,黨支部也不只是面子工程。

許多東西的發展都是先走形式再走內容,沒有什麼是一蹴而就的!

任何東西要想發展起來一開始必然是依託於泡沫的,泡沫是這個行業的廣告,是他對未來的刻畫與構想!

通過泡沫讓大數據能夠廣為人知,然後讓更多的人參與進來才能產生更多實質性的價值,在泡沫破滅之前把這個行業的基礎構建完成!

大數據存在泡沫,但是大數據不是泡沫!


首先能理解的是題主問的「大數據」並不是大數據所用的工具,也不是大數據的技術,而是大數據行業。技術沒有泡沫,但是某個行業,是出現過泡沫的,還不止一次。

首先,我們來統一一下基線:

1、泡沫是指一個事物的價格嚴重超過了其真實價值,最後必然會破裂,重新跌回真實價值

如果一個事物的真實價值20萬RMB,但是售價10萬RMB,這叫撿漏。反之,價值10萬,售價20萬,可以稱之為經濟泡沫;若售價持續走高,一旦無人接盤,市場價格體系崩塌,可稱之為泡沫經濟。

2、大數據是指:使用一整套圍繞全量數據存儲、管理、計算、歸納、展示的核心技術進行研究,並提供增值服務,使用的技術包含但不限於:

使用分散式、集群技術存儲和管理數據

用各種統計學演算法進行數學計算

用數據建模技術進行知識發現

用數據可視化技術進行展現

3、大數據真實的價值體現在提升效率、業務洞察和知識發現。

大數據可以極大的提升數據處理的速度,擴大數據的範圍,擴充可計算數據的容量,在此基礎上進一步做到業務深入洞察和知識發現。但是大數據本身並不創造價值,其價值在於buffer。

如果你不反對以上幾點,我們才可以繼續向下討論。

提到泡沫經濟,比如會提到美日房地產泡沫和美國互聯網泡沫。

摘取兩張圖,版權見圖片水印。

個人認為,這張圖能很好的解釋泡沫的產生。一旦一個事物的價值被嚴重低估的時候,就會引來無數的關注。納什均衡告訴我們市場會把低估的事物價值拉升至其真實價值。數學能計算一切,卻計算不了人心。一旦有人從中獲利,將會有無數的人入市,玩滾雪球的遊戲,雪球輕而易舉的越過真實價值,泡沫就這麼產生了。

那麼大數據是否符合泡沫經濟的趨勢呢?從目前來看,有強大的國家戰略推動因素,大數據呈現的與泡沫經濟破裂之前的強勁漲幅是相符的。但是是否會破裂,我是不知道的。所以我給出的答案是,大數據目前來說,有著與泡沫經濟類似的發展趨勢,但是是騰飛,還是泡沫,我從數據上給不出答案。從政策上來說,我認為是行業的騰飛。

現在大數據從業者的工資確實不錯無論是美國還是中國都是一樣。上招聘網搜一下就知道了。

作為一個大數據從業者,我比較關心的是,萬一泡沫破裂了,對我來說有啥影響呢?

這張圖顯示了美國互聯網泡沫破裂後的慘狀,納斯達克指數中,電信和計算機行業的猛增,到2000年的迅速衰敗,崩盤。

這是個很好的歷史參照。我從美國勞工部扒了一些數據,因為行業類別有所變動,請忽略前面的行業名稱。

美國通信業歷年平均工資情況顯示,即使在通信業泡沫破裂之後,通信業整體平均工資也並沒有回落,反而上升了~~~所以,好好學習,努力工作吧~~~

不過,這是怎麼回事?誰能幫忙分析一下?


很顯然,大數據並不是泡沫,而是一種資源,當然你也可以稱其為互聯網時代的石油。在沒有數據的情況下,我們做決策主要憑直覺,在有少量數據的情況下,我們做決策主要憑經驗,而在大數據的場景下,我們可以通過對數據進行採集、存儲、處理、分析,當數據量豐富到一定的程度,就可以對即將發生的事件進行準確的預測,這也是大數據價值的核心。

谷歌就曾經藉助大數據對H1N1傳播狀況進行了預測,與實際數據相關性高達97%;百度也曾藉助大數據對某年的高考作文進行預測,並命中18卷中12卷的高考作文題目……

之所以能夠進行準確的預測還是基於豐富的數據樣本,通過分析數據的關聯性,對事件進行準確的預測,而之所以能夠進行準確的預測,就是因為大數據,所以數據也就成為了一種資源。

藉助大數據這種資源,我們做了很多的預測,幫助人們提高了預測準確性,降低了預測成本。

一、Farecast——機票價格預測

既然大數據能夠進行準確的預測,那麼一定可以預測物價的漲跌了,Farecast就是這樣的一家公司。

幾年前,曾被微軟以 1.15 億美元價格收購的機票價格預測公司Farecast,就是藉助「大數據」預測機票價格,告訴用戶未來幾天機票價格的走勢情況,而Farecast之所以能進行價格預測,就是基於旅遊軟體公司ITA Software提供的海量用戶數據。根據ITA提供的近十萬億條價格記錄,Farecast對各城市間所有機票價格中的低價格進行對比,分析這些低價是如何匹配的,進而預測機票價格的走勢以及增降幅度,以此幫助消費者抓住最佳購買時機,準確度一度達到75%,使用該預測工具購買機票的旅客,平均每張機票可節省50美元。

而Farecast之所以會出現,其實還是因為他的創始人有一次買了比別人貴的機票而心存不滿,發了大招,做了Farecast「報復社會」,想想還是很有成就感的。不過我還是希望有個技術大牛做一個房價預測的分析,這樣,我也能確定我這輩子還能不能買得起房,啥時候買最合適。

二、眾雲股票——股票預測

大數據可以幫你省錢,當然也可以幫你掙錢。與旅遊類似,股票市場同樣每天產生著各種各樣的數據,因此一些號稱「股神」、「股俠」、「股聖」的人也隨之出現在互聯網上,做著各種各樣的分析,相比一些常規的股票網站或社區,平均預測準確度能有20%就已經很不錯了,個人分析準確率就更低了。

對於股票來說,不僅要知道買什麼,而且還要知道什麼時候買,擇時而動才能從中獲利。相比之下,眾雲網通過股市數據分析建立了股票表現與集體情緒面的場景關聯,可以實時彙集用戶立場數據,對市場預期進行評判。

網站集股票專家,投資人,私募,大牛散戶和各個上市公司財務負責人於一體,以評級打賞促使核心用戶輸出優質內容,更好服務其他用戶。眾雲的推薦演算法,也可以精準推薦用戶喜歡的股票和專家,並糅合分析師,散戶,一級市場發行商,二級市場私募,以及企業負責人,政府政策等多方的角度去生成最具有普適性的預測價值。

雖然有人說股市中有兩種人:第一種是不知道股市往哪裡走的,第二種是不知道他們自己不知道股市往哪走的的。但是事實上還有第三種人:他們靠假裝可以預測股市的走向來騙吃騙喝。

或許在沒有大數據的年代裡,這些話還很在理,不過在大數據技術發展日新月異的時代里,一切都不能那麼絕對,畢竟基於大數據和深度學習的alphgo戰勝李世石的時候我們也是有目共睹的。眾雲的投票機制對於用戶的反饋自動生成吻合度評價,內容得到廣大用戶和專家大牛的集體檢測,促使用戶分辨瀏覽信息的質量,投資理財變得更加機智和謹慎。

三、找鋼網——鋼貿行業信用評估

說起中國的鋼鐵行業,不得說說一個流傳已久的段子:全球鋼產量排名,第一名是中國(不包括河北);第二名是河北(不包括唐山);第三名是唐山(不包括瞞報);然後是日、美、印、俄、韓、唐山(瞞報產量)、德國。 所以鋼鐵行業在中國佔據著舉足輕重的地位,但是由於市場的關係,坑了很大一批人,以銀行及其他金融機構對此領域避而遠之。此環境下,找鋼網應時而生。

基於大數據的 「找鋼網」,目前採用的數據主要有三類:一為客戶數據,包括客戶基本工商資料、公司領導以及重要員工的個人信息;二是在「找鋼網」交易平台上產生的交易數據,包括供應鏈數據、財務信息、客戶行為習慣等;三是金融數據,包括下游小微企業的融資數據,供應鏈數據等。

在數據獲取後,「找鋼網」會對供應鏈、財務、行為習慣進行校驗,以確保數據的準確性,進而,「找鋼網」利用上述數據,建立統一的鋼貿指標體系,尋找一種標準化鋼貿行業信用評估的方法。也就是說,由數據生成指標,由指標形成信用,實現對鋼貿企業的信用評估。

有句話說得好:傳統的方式只能獲得傳統的結果,創新的方式將會得到更多的意外。基於數據採集以及數據分析的大數據的應用,也必然會為我們提供更加準確及時的信息預測,改變傳統的預測方式,讓大數據體現其真正價值。


大數據只不過是一個最近被提出來的新詞而已,其實本質意義上的大數據很早就有了。

舉兩個N久以前大數據的產物:

誰能說這倆東東不是大數據的產物?

然後,個人認為大數據就是

目前的大數據是16G的,請注意:是16G的

而幾年前炒的火熱的信息化就是

鍵盤亮點所以,最後得出的結論就是:大數據只不過是信息化的一次進化而已,所以討論泡不泡沫根本沒意義,因為過不了幾年後又會出新機了,不,不,是又會進化了。


蒸汽機是不是泡沫?


感覺泡沫很大!絕大部分嚷嚷著學機器學習的都處於科普階段


大數據本身並不是泡沫,可是我們很多學者都將大數據分析得來的相關性類比成了因果關係。

(不要臉的補充一句)如果大家想多了解就贊一贊嘛,答主可以舉幾個我們做過的例子


泡沫相當大,主要是以前做諮詢的,做調研報告的,做資料庫ETL的,甚至會用excel做過分析的,拿著幾十幾百個樣本就敢說自己做大數據。更令人髮指的是居然每人出來指責他們,大眾還認可這種說法。

這些都是泡沫。

如:

深度 | 60個國內頂級商業大佬的學歷大數據,得出的結論震驚了

http://mp.weixin.qq.com/s?__biz=MzA4NDI1MDIwNg==mid=2650567966idx=4sn=0247e2a143323283f88f64785e11f3adfrom=timelineisappinstalled=1


推薦閱讀:

如果要推薦一本數據分析入門的書給新人,你希望是哪一本?
數據分析對網站運營重要嗎?

TAG:數據挖掘 | 數據分析 | 數據統計 | 互聯網數據分析 | 大數據 |