大數據,大數據平台,大數據價值

第一部分:什麼是大數據,大數據有什麼特徵

(註:本文根據小講「企業大數據戰略及價值變現」中的「什麼是大數據」章節的分享整理而成)

對於大數據,我想不管你是否行業內人士,在這高度信息化的社會裡面,都會有意無意的聽說過大數據這麼一個概念。小到一個店家,大到一個國家,都在講大數據。不過,真正搞清楚什麼是大數據的人可能真不那麼多。其實,故名思議,大數據肯定體現在「大」上,可數據是一個比較抽象的東西,我們該怎麼去描述數據的「大」呢?這裡面就涉及到一些專業領域的東西了。

麥肯錫對「大數據」給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力範圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特徵。

我們應該怎麼去理解這句話呢,首先,我們知道,在大數據出現之前,我們對數據的日常處理分析常常使用的是諸如sqlsever/oracle/mysql等傳統關係資料庫,處理T級別的數據量已經是這些資料庫的極限,面對PB/EB/ZB級的數據量那就更無能為力了。那是不是以前就沒有這麼大的數據量呢,也不是,早在20世紀80年代,未來學家 阿爾文托夫勒 就將大數據稱作「第三次浪潮的華彩樂章」,只不過當時由於數據處理能力有限,所以大數據一直沒有被提起來,直到2005年,Hadoop項目誕生,從技術層面上搭建了一個使對結構化和複雜數據快速、可靠分析變為現實的平台。從這個時候開始,「大數據」才逐步成為互聯網信息技術行業的高頻辭彙,為人們所熟知。從這個上,我們可以看出,技術的發展不僅在改變人們的生活,其本身也在推進著更高級的技術的誕生。話說回來,「大數據」是不是只是一種規模大的數據集合就夠了呢,顯然不是的,還必須具備4V的特徵。先說說海量的數據規模,前面說到處理PB/EB/ZB級的數據量,正是大數據優勢所在,處理數據量的PB化,以前是不可能的事情,但在大數據時代,將會是一個常態,這是一個什麼概念呢,一部高清電影約4g,一個PB=1024*1024g,大數據瞬時處理1PB的數據量,就相當於瞬時處理26萬部的高清電影的量。其次,說到「快速的數據流傳」,怎麼說呢,所有數據都有時效的,商業業務決策也是有時效的,如果不快速處理,得到結果來,那麼就很可能會失去商機,所以,我們也在一直強調利用大數據做實時分析。再次,「多樣的數據類型」又是什麼呢,在大數據走進大眾之前,傳統的數據處理工具,往往處理的是標準的結構化的數據,也就是存在我們的資料庫表格中的數據。針對非結構化的數據,比如文本、語音、視頻、圖像等等,這是大數據要經常面對的事情。最後,「價值密度低」,這個概念有點抽象,怎麼去理解呢,大數據是一個海量的數據,在大海中撈針,這針就是我們的寶藏。但我們把這個針經過一系列的分析處理確定是在某一平方米的水域,那麼這個密度就會高很多了,在這一塊區域去撈針就容易獲得成功多了。

以上,就是我對什麼是大數據的通俗理解。

第二部分:大數據平台

(註:本文根據小講「企業大數據戰略及價值變現」中的「大數據平台」章節的分享整理而成)

大數據有非常大的價值,不管是從幫助企業創造營收還是從提高效率、節省企業成本角度。大數據要是做好了,將會是一個企業增長的發動機,推動業務突飛猛進的發展。要實現大數據的價值,真正讓大數據為企業創造貢獻,首先必須要積累有大數據,把日常的業務和用戶行為數據收集起來。有些數據是可再生資源,但更多的數據是不可再生資源,這就需要我們搭建一個平台負責數據的採集、規整、運算、存儲、應用、展現等,有了這樣一個大數據平台,我們才能做好數據的積累,從小數據到大數據,數據是企業的資產,好的數據是企業的優質資產。大數據平台該怎樣搭建呢?請看下面這幅圖,不管我之前在阿里還是在騰訊工作,還是到哪個企業工作,基本上我都是通過這幅圖進行一些簡單的適應企業的調整,就可以完全搬過來使用了。

針對上面這幅圖,有幾點跟大家講解說明下:

1)大數據平台由三個平台+一個服務組成:工具平台,大數據倉庫基礎平台、大數據門戶,其中,工具平台又包含運維平台和數據採集平台,大數據門戶又包含大數據分析平台和大數據產品應用平台。

2)講講每個平台的作用。

運維平台主要負責整個大數據平台的任務調度、任務監控、元數據管理、許可權管理等,分別由調度系統、任務監控中心、元數據管理系統、許可權管理系統等系統組成。

大數據採集平台主要負責把數據採集到大數據倉庫平台中。企業的大數據來源從大的角度來說,主要是從三個方面獲取數據,業務系統、行為日誌採集系統、外部數據來源。每一個方面來源又包含途徑,大家可以看上面的圖就了解。這裡特別要強調的是外部數據來源,可以通過網路爬蟲工具收集,通過和相應的合作方進行數據交換,通過從數據商那裡採購過來,也有極少部分可以通過一些大公司的開放平台介面獲取,比如阿里、騰訊等。

大數據基礎平台,在傳統的關係資料庫時代,這個平台也是企業必須要做的平台,只不過當時叫數據倉庫系統,在大數據時代,我稱作為大數據倉庫基礎平台。這部分是整個大數據平台的核心。我們接下來會詳細討論。

大數據門戶,是數據成果的集成一體化平台,包含大數據分析平台和數據應用平台。大數據門戶作為整個數據部門的窗口,所有數據研究成果都會展現在數據門戶中,極大的方便了企業各層級、各職能人員使用數據。我們接下來也將會詳細討論下這部分內容。

用戶服務,使用我們數據的人主要有公司的各層級的管理人員、數據分析人員、運營人員、產品經理、技術研發工程師、企業的投資相關方,還可能有部分的公司提供對外的數據服務。提供服務的方式有多種多樣,或通過大數據門戶、或通過API介面、或是直接在分析報告中體現。

註:詳細分享每個平台如何構建的內容,歡迎大家參加小講「企業大數據戰略及價值變現」,會有很多的乾貨和獨門絕技分享。

第三部分:大數據的核心價值

(註:本文根據小講「企業大數據戰略及價值變現」中大數據價值章節的分享整理而成)

大數據的核心價值,從業務角度出發,主要有如下的3點:

a.數據輔助決策:為企業提供基礎的數據統計報表分析服務。分析師能夠輕易獲取數據產出分析報告指導產品和運營,產品經理能夠通過統計數據完善產品功能和改善用戶體驗,運營人員可以通過數據發現運營問題並確定運營的策略和方向,管理層可以通過數據掌握公司業務運營狀況,從而進行一些戰略決策;

b.數據驅動業務:通過數據產品、數據挖掘模型實現企業產品和運營的智能化,從而極大的提高企業的整體效能產出。最常見的應用領域有基於個性化推薦技術的精準營銷服務、廣告服務、基於模型演算法的風控反欺詐服務徵信服務,等等

c.數據對外變現:通過對數據進行精心的包裝,對外提供數據服務,從而獲得現金收入。市面上比較常見有各大數據公司利用自己掌握的大數據,提供風控查詢、驗證、反欺詐服務,提供導客、導流、精準營銷服務,提供數據開放平台服務,等等

但在實踐中,我更加喜歡把數據的價值分為兩個方面,一個方面是給企業創造營收,另一個方面就是給企業節省成本。整體梳理的框架如下,請大家參考:

除了上面我對數據價值的理解外,阿里前數據委員會主席車品覺老師從數據的應用價值出發,歸納出如下的5類數據價值,也有一定的道理,大家可以作為參考:

以上就是我對數據價值的理解。

歡迎大家拍磚指正,歡迎大家關注我的知乎專欄「大數據實踐與職業生涯」並留言,專欄會陸續的推出過往十多年的大數據工作經驗總結和我的一些研究實踐成果。如果你是大數據新人,或者想轉行進入大數據領域,或者職業生涯上存在一些疑惑,都歡迎關注我的知乎live分享「大數據人的職業生涯規劃」 和 「數據分析師-從零入門到精通」、「大數據人的數據科學家之路」、「企業大數據戰略及價值變現」。


推薦閱讀:

TAG:大数据 | 数据分析 | 数据挖掘 |