大數據和雲計算

03-04

如何使用大數據進行數據分析，數據挖掘，畫像和推薦，結合雲計算來談談自己對於大數據的認識。

研究機構Gartner給出了這樣的定義：「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。那什麼是數據或者信息，數據是指事實或觀察的結果，是對客觀事物的邏輯歸納，是用於表示客觀事物的未經加工的的原始素材。在互聯網領域，數據就是二進位單元，以0或1來表示。比如我們的用戶信息，商品的信息，地圖軟體導航的路徑，這些都是數據，而且這些數據不是大數據的概念，而是互聯網應用必備的數據要求。那為什麼在數據之前前綴是「大」？

大家都了解大數據的4個特點，海量的數據模型（volume），快速的數據流轉（velocity），多樣的數據類型（variety）和巨大的數據價值（value）。

海量的數據，大數據的體量為什麼在12年後爆發起來，是因為我們有能給力記錄巨量的數據，或者中小企業有能力來存儲大數據。之前可能只有Google，BAT等企業才有能力記錄巨量的數據，隨著15年雲計算的大批量普及及雲計算存儲能力的提升，大數據的存儲問題得以解決。單單記錄用戶的業務數據或者關鍵數據，可能沒有數據存儲壓力，但是如果需要記錄所有的用戶軌跡，用戶的位置信息，用戶的其他額外有效信息等多樣的數據內容，如何記錄多種類型的數據，而且都是巨量數據。在雲計算引入之後，我們就可以通過各種方式，通過雲存儲記錄我們需要保存的多類型，海量的數據。

那麼有了這麼大的數據量，如何計算？如果沒有一個強有力的數據計算模型和巨量的計算資源，談何容易。對於10T以上的非關係型數據信息，怎麼來獲取其中的我想要的業務邏輯？或者如果是100G以上的關係數據，如何快速的獲取其中的關聯信息？如果我們通過傳統的計算方式，估計幾天幾夜的計算和資源的調配，才能將100G的數據梳理完成，並且得到結果。如果其中出錯，重新計算，那麼對比起，可能還需要幾天幾夜。但是如果我們採用大數據計算，在用mapreduce等等技術，我們可能1小時就能夠把需要的數據計算出來，在雲計算平台的支持下。

大數據的基礎就是海量數據和快速的處理能力，我們需要挖掘數據的價值，從各種數據中進行關聯分析，找到我們想要的內容。大數據的本質不是海量的數據，而是我們能夠通過各種不同的數據內容，快速的進行驗證分析和交叉對比，能夠讓我們的數據分析和數據挖掘非常的精準和有效，達到定點打擊的效果。