大數據華而不實么?大數據的本質是什麼?

大數據是否只是一個很空的概念和口號?若干年前就存在的東西,為什麼現在這麼火。現在是個人,言必稱大數據。大數據的本質是什麼?不要跟我說大數據只是「大」,它跟以往的小數據有什麼本質區別?分析方法上有什麼本質不同?


當有關大數據的喧囂過去之後,大數據才算真正的落地
跟多年前雲計算的喧囂相比,是何其的類似

===========以下是一個初學者的個人看法============
大數據放在現在來講,已經有不少比較成熟的理論、方法以及工具,已經不是一個空泛的口號了
為什麼還讓人覺得空泛?究其原因我認為雖然大數據已經有了不少的應用,但是,大部分在宣傳「大數據」的企業/公司,卻拿不出能讓人眼前一亮的實踐示例(但原因不一定是人家沒有)。這就導致了我們都知道大數據火,因為人人都在談它的概念、它的好處、它的未來,但是除非你真的身處這個領域,不然你較少能看到真正能讓你覺得「哦,這是大數據」的例子
大數據的本質是什麼?歸根結底,大數據是因為硬碟逐漸變得便宜了,很多在過去不得不刪除的日誌、記錄等等數據能夠長時間保存下來了,數據分析師們覺得「咦,為什麼不用這些歷史數據構建一個數學模型來模擬近期某種走勢或者預測未來的某種趨勢呢?」
個人認為:大數據分析=機器學習+統計學(其實這二者本來就有交集)
在統計學裡,樣本的空間越大,對總體的體現就越準確。這就是大數據的「大」和小數據的區別。也就是說,數據量越大,在相對正確的數學模型之下,其結果就越接近真值
至於分析方法上,一方面,某些適用於小數據的分析方法,在數據量增大之後會出現失真的情況;另一方面,假如數據量已經大到不能用一台計算機來完成了,自然需要採用特別的大數據分析方法和工具了(如hadoop)


我們是一個做消費品的公司,但我們在從事一些運營活動的時候會有意識的去使用消費者的基本數據來提升客戶管理的質量,從而達到更加精準的營銷效果。
但作為一個三線城市的互聯網產品而言,斗膽去提什麼數據分析,基本上很蠢的事情,因為幾乎不會有人相信你真的具備數據分析的能力,又或者因為你沒有足夠量的數據去支撐這件事兒。
今天我就來簡單談一下我對數據的一些比較淺顯的理解,僅供吐槽。
據我了解,現在比較普遍的大數據公司大概就這三個類型:
(1)基於數據本身的公司。這些公司擁有大量的數據或者至少擁有可以收集大量數據的能力,卻不一定有從數據中提取價值或者用數據催生創新思想的技能。自己好的例子就是Twitter,它擁有海量的數據這是毫無疑問的,但是它的數據都是通過兩個獨立的公司授權給別人使用。
(2)基於技能的公司。它們通常是資訊公司,技術供應商或者分析類公司。它們掌握了專業技能但並不是一定又有數據或者提出數據創新性用途的才能。比如說,沃爾瑪和Pop-Tarts這兩個零售商就是藉助天睿公司(Teradata)的分析來獲得營銷方案,而這裡說的天睿就是大數據分析公司。
(3)基於思維的公司。Jetpac的聯合創始人皮特·華登就是通過想法獲得價值的一個例子。Jetpac通過用戶分享到網上的旅行照片來為人們推薦下次旅行的目的地。對於某些公司來說,數據和技能並不是成功的關鍵。讓這些公司脫穎而出的是其創始人和員工的創新思維,他們有怎麼挖掘數據的新價值的獨特想法。
考慮到我們現在處於一個數據過量而技能稀缺的時代,所以風靡一時的大數據時代也主要是關注前面兩種類型的公司。我一直覺得資訊的價值就是資訊本身而不是資訊的來源,所以我同樣覺得數據的數量不是最關鍵的,大數據最值錢的部分就是它自身。即便我們處理數據量不是很大,這並不妨礙我們去更多的去關注數據本身的價值!
我們的配送團隊在客戶簽收的那一兩分鐘內,事實上如果留意並加以培訓的話,是可以從客戶身上採集到很多有價值的數據的,比如:客戶的體型,穿著,公司或者小區的檔次,健談的程度等,這些數據對於客服去跟進客戶,或者後期進行營銷都起到了非常重要的參考!
所以即便我們沒有大數據,也應該去運用數據來處理問題,這對於一個具有互聯網意識的公司來說必不可少的部分。


大數據的本質就是規律


我個人覺得是思維的不同。
從我淺顯的想法來說, 以前未必是小數據,但之所以沒有那麼多人談論,只是因為他們把這種數據碎片化了,比如周濤教授之前做過的一個實驗,從整個大學學生刷卡的次數來得出哪些學生有抑鬱症可能性。
首先,幾乎極少的人會有這一聯繫。這就是現在的我們開始嘗試用大數據思維來得出我們覺得可能有關聯的答案。
其次,很多人可能會只從一個班的人數來做調查,這一數據就是你說的 小數據。 但小數據在公司里的體現一般只能體現一個公司的狀況,如果沒有大數據里的比較,對於單一樣本來說未必能有什麼結論。
再者,以前即使有數據,但只能從數據中得出可以得出的淺顯的結論。而現在,很多人是希望從已有的數據中得出相關聯的結論。

不過無論如何,我認為人的思維才是主導。


樓主可參見 為什麼現在要談大數據?
關於大數據的局限 可參見 「大數據」時代,什麼是數據分析做不了的?


大數據是一種思維方式,而不是自然規律。


大數據從本質上說,是人類認識世界的方式進一步發展,以數據量化的方式,發現事物發展變化的規律和趨勢,進而通過有效干預,推動事物向人們預計的方向發展。從物質基礎上分析,大數據是人類社會進入信息化、網路化時代,發展到一定階段的產物,是科技推到社會發展的又一社會現象,其社會效益,經濟效益將不斷顯現。具體到個人,就是把握機會,順勢而為,實現夢想。


以前也有數據分析為什麼不叫大數據,如果說是現在的數據更多了,是范在的範疇,可是是否僅此而已?不是的。
我認為:大數據≠很多數據+數據分析
其需要在這個的基礎上加上,計算機分析,因為其所能做到的數據分析及范在數據來源,都是人力所能達到的極限的延生。


大數據的本質就是更多有意義的數據和更更多的噪音,這是小數據時代不曾遇到的問題。大數據可以支持我們用更複雜和更多層的模型把問題解決的更好。當數據少的時候,複雜的模型會過擬合。


大數據就是統計,數據多了就會出現規律


本質是人類對世界規則認知的加深


大數據的「大」,在我看來有兩點含義,數據量級大,數據維度高,能夠找到有效的挖掘技術激活大數據,其意義顯然是不言而喻的,在大的層面,統計數據,可以對戰略進行指導,在小的層面,個性化的數據,又可以對挖掘對象進行更好的擬合與預測,比如說依賴於個人的全維度的歷史(誇張點,從出生到現在...),進行個性化推薦。


大數據是為戰略提供支持,對高層決策和戰術擬定有用,對執行人員來講沒太大意義。
另,大忽悠太多了。


這個問題本身而言,何必在意名詞,華而不實與否,只要了解這個領域或相關領域的挑戰,自然你就明白本質是什麼了。這個問題的答案都不本質。
在學術界的挑戰是:複雜數據結構(網路數據,分散式數據)怎麼算的快,怎麼算的准,為什麼已有演算法實現不了-》理解原因。
在業界挑戰(我可能理解的不對):1. memory 數據讀不進內存,如何進行計算。2. complexity 盡量用interative,linear演算法,而不是解大規模優化。在Control領域人們推進了SDP,SOS等優化手段可以解大規模優化,但是還是不可以scale。


推薦閱讀:

12345654332?
Cpk和ppk的本質差別是什麼?
R的作圖能力相比tableau如何?
相對於直接操作資料庫進行分析,hadoop和SPSS等數據分析軟體的作用是什麼?
數據可視化,大屏展示,哪家公司做的不錯?

TAG:數據挖掘 | 數據分析 | 大數據 | 大數據分析 |