大數據時代:發掘大數據未知的潛能
大數據目前被公眾廣泛討論,甚至成為不少商家宣傳營銷的賣點。毋庸置疑,智能設備的發展和普及,使海量的數據採集成為可能。但大數據並不是單純的「數據大」,它更蘊含著一種計算和思維方式的轉變,想要發揮出大數據的洞察力,還面臨著採集、管理、分析數據的挑戰。這些障礙如何破除?大數據在未來將如何應用,能否創造出更大的價值?這些問題值得我們在大數據時代,做出冷靜判斷。
傳統統計方法追求精確,大數據只預測宏觀趨勢
本是技術概念的大數據,如今越來越像一種營銷手段。從汽車、化妝品到體育,在營銷人員口中,似乎所有行業都可以藉助大數據,精確定位、找到消費者,預測趨勢、贏得未來。
事實上,對於數據多大能稱之為「大數據」,業界並沒有統一的認識,通常認為100TB(太位元組)是大數據的門檻。簡而言之,傳統方法無法處理的數據即為大數據。
大數據的產生得益於移動互聯網以及智能手機、各種智能穿戴產品的發展,人們行為、位置,甚至身體的生理特徵等數據都可以便捷地被記錄,這使海量數據採集成為可能。事實上,目前數據採集量正呈現快速的增長趨勢。一家國際數據統計機構最新預測指出,2020年,全世界產生的數據量有望達到40ZB(澤位元組,1澤位元組等於10億太位元組)。
但大數據不能單純理解為數據大。大數據研究專家、北京航空航天大學校長懷進鵬表示,大數據具有「規模大、變化快、種類雜、價值密度低」四個特徵,是對傳統計算和思維方式的一種挑戰。
首先,因為幾乎每個數據點都可以採集,全面數據代替了抽樣、片面、局部的數據。「拿炒菜打比方,傳統的抽樣,我們需要在開始和中間時候『嘗一嘗』,『嘗一嘗』就是抽樣數據,但在大數據時代,隨機抽樣的方式可能就失效了。」懷進鵬說。
另一個改變是,從關注因果轉向數據之間關聯。在大數據時代,「數據背後的原因不再重要,人們只需要知道數據之間有統計相關性就行。僅需知其然,無需知其所以然。
提升計算能力和降低雲存儲成本,將有利於大數據技術變革
百度首席執行官李彥宏認為,隨著計算能力的提升和雲存儲等技術產品成本的不斷降低,大數據走到了技術變革的臨界點。不久前,百度就推出了「百度大數據引擎」,百度希望藉助該工具,對大數據進行收集、存儲、計算、挖掘和管理,並通過深度學習技術和數據建模技術,使數據具有「智能」的技術能力,服務傳統行業。
據了解,百度大數據引擎包括開放雲、數據工廠、百度大腦三大組件。其中,開放雲解決的是數據存儲和計算問題;「數據工廠」則對行業數據進行規範化處理,提供數據管理和分析;而「百度大腦」則讓機器和人腦一樣思考,分析處理數據。
不過,分析人士指出,雖然各方面為挖掘大數據開發了很多工具,但大數據的成熟應用還有很長一段時間。首先,數據雜亂,價值密度低,如何有效的收集數據信息仍沒有成熟的方案。同時,數據的規模並不能決定一切,不論是那種數據分析方式,都可能存在統計上的缺陷,不能說數據更大、更新、更快就沒有問題。
英特爾中國研究院首席工程師吳甘沙表示,大數據作為一種新的數據形態和實踐,它將豐富數據應用方法,卻不能取代傳統統計分析方法,更不能神化大數據。
大數據營銷大多是噱頭,一些機構甚至無法收集海量數據
被譽為開大數據系統研究先河之作的《大數據時代》作者指出,大數據是社會的一種新型能力:以一種前所未有的方式,通過對海量數據進行分析,獲得巨大價值的產品和服務,或深刻的洞見。
大數據蘊含的發現事實、挖掘價值、預測未來的洞察力,也是各色大數據營銷的理論出發點。實際上,大數據洞察力確實在公共衛生、交通運輸等行業開始發揮。
在智能交通時代,海量車輛信息沒法通過傳統方式分析,但藉助大數據,則可能提前預測未來的車流量、行進路線等信息,從而為改善城市交通狀況提出優化方案。
大數據,是否真如營銷人員暢想得那麼美好?
分析人士指出,數據存儲和搬運雖然越來越便利,但目前大數據應用面臨著數據收集,管理、分析海量數據並創造價值的挑戰。
「如果將數據比作書,書增多後,首先要找到儲存大數據的『大圖書館』,下一步則要解決數據查詢問題,沒有好的查詢引擎,書找不到,數據也就很難利用。」 百度大數據總監李鋼江說。而現實是,大部分機構和企業都沒有海量數據收集存儲以及分析管理的能力。
Bingdata優網助幫匯聚多平台採集的海量數據,通過大數據技術的分析及預測能力為企業提供智能化的數據分析、運營優化、投放決策、精準營銷、競品分析等整合營銷服務。
北京優網助幫信息技術有限公司(簡稱優網助幫)是以大數據為基礎,並智能應用於整合營銷的大數據公司,隸屬於亨通集團。Bingdata是其旗下品牌。優網助幫團隊主要來自阿里、騰訊、百度、金山、搜狐及移動、電信、聯通、華為、愛立信等著名企業的技術大咖,兼有互聯網與通信運營商兩種基因,為大數據的演算法分析提供強大的技術支撐。
推薦閱讀:
※大數據時代必須破解的重大現實課題
※R語言 從入門到精通之一R語言初識
※學習大數據的正確打開方式
※從頭學習大數據培訓課程 spark 基於內存的分散式計算框架(四)spark-sql
TAG:大數據時代 |