標籤:

大數據和雲計算

如何使用大數據進行數據分析,數據挖掘,畫像和推薦,結合雲計算來談談自己對於大數據的認識。

研究機構Gartner給出了這樣的定義:「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。那什麼是數據或者信息,數據是指事實或觀察的結果,是對客觀事物的邏輯歸納,是用於表示客觀事物的未經加工的的原始素材。在互聯網領域,數據就是二進位單元,以0或1來表示。比如我們的用戶信息,商品的信息,地圖軟體導航的路徑,這些都是數據,而且這些數據不是大數據的概念,而是互聯網應用必備的數據要求。那為什麼在數據之前前綴是「大」?

大家都了解大數據的4個特點,海量的數據模型(volume),快速的數據流轉(velocity),多樣的數據類型(variety)和巨大的數據價值(value)。

海量的數據,大數據的體量為什麼在12年後爆發起來,是因為我們有能給力記錄巨量的數據,或者中小企業有能力來存儲大數據。之前可能只有Google,BAT等企業才有能力記錄巨量的數據,隨著15年雲計算的大批量普及及雲計算存儲能力的提升,大數據的存儲問題得以解決。單單記錄用戶的業務數據或者關鍵數據,可能沒有數據存儲壓力,但是如果需要記錄所有的用戶軌跡,用戶的位置信息,用戶的其他額外有效信息等多樣的數據內容,如何記錄多種類型的數據,而且都是巨量數據。在雲計算引入之後,我們就可以通過各種方式,通過雲存儲記錄我們需要保存的多類型,海量的數據。

那麼有了這麼大的數據量,如何計算?如果沒有一個強有力的數據計算模型和巨量的計算資源,談何容易。對於10T以上的非關係型數據信息,怎麼來獲取其中的我想要的業務邏輯?或者如果是100G以上的關係數據,如何快速的獲取其中的關聯信息?如果我們通過傳統的計算方式,估計幾天幾夜的計算和資源的調配,才能將100G的數據梳理完成,並且得到結果。如果其中出錯,重新計算,那麼對比起,可能還需要幾天幾夜。但是如果我們採用大數據計算,在用mapreduce等等技術,我們可能1小時就能夠把需要的數據計算出來,在雲計算平台的支持下。

大數據的基礎就是海量數據和快速的處理能力,我們需要挖掘數據的價值,從各種數據中進行關聯分析,找到我們想要的內容。大數據的本質不是海量的數據,而是我們能夠通過各種不同的數據內容,快速的進行驗證分析和交叉對比,能夠讓我們的數據分析和數據挖掘非常的精準和有效,達到定點打擊的效果。

推薦閱讀:

AI+金融:學者、產業、趨勢全景報告
扯個關於大數據的淡
移動互聯網大數據匯總,雞年我們都幹了點啥?
別把我們的勞動,當作你們的資本——對用戶數據性質的新探討
一文讀懂物聯網、雲計算與大數據的關係

TAG:大數據 |