白話解析 大數據與雲計算的關係

在PaaS層中一個複雜的通用應用就是大數據平台。大數據與雲計算的關係是怎樣的?大數據是如何一步一步融入雲計算的呢?

其實所謂大數據,就是由很多小數據匯聚而成的,我們本身就是一個數據,比如我們的通訊信息、我們的路線信息、我們瀏覽網頁的信息等等,都是一個個活生生的數據,而正是這一個個精確的數據組成了我們口中的大數據。

面對這些大數據,如果置之不理,其實就是一堆數據垃圾,但如果對此充分利用,那就會讓你發現讓你意想不到的結果。而面對大量的數據做分解、統計、匯總,一台機器肯定搞不定,處理到猴年馬月也分析不完。於是就有分散式計算的方法,將大量的數據分成小份,每台機器處理一小份,多台機器並行處理,很快就能算完。例如著名的Terasort對1個TB的數據排序,相當於1000G,如果單機處理,怎麼也要幾個小時,但並行處理209秒就完成了。

什麼叫做大數據?說白了就是一台機器干不完,大家一起干。可是隨著數據量越來越大,很多不大的公司都需要處理相當多的數據,這些小公司沒有這麼多機器可怎麼辦呢?

說到這裡,大家想起雲計算了吧。當想要干這些活時,需要很多的機器一塊做,真的是想什麼時候要就什麼時候要,想要多少就要多少。

例如大數據分析公司的財務情況,可能一周分析一次,如果要把這一百台機器或者一千台機器都在那放著,一周用一次非常浪費。那能不能需要計算的時候,把這一千台機器拿出來;不算的時候,讓這一千台機器去干別的事情?

誰能做這個事兒呢?只有雲計算,可以為大數據的運算提供資源層的靈活性。而雲計算也會部署大數據放到它的PaaS平台上,作為一個非常非常重要的通用應用。因為大數據平台能夠使得多台機器一起干一個事兒,這個東西不是一般人能開發出來的,也不是一般人玩得轉的,怎麼也得雇個幾十上百號人才能把這個玩起來。

所以說就像資料庫一樣,其實還是需要有一幫專業的人來玩這個東西。現在公有雲上基本上都會有大數據的解決方案了,一個小公司需要大數據平台的時候,不需要採購一千台機器,只要到公有雲上一點,這一千台機器都出來了,並且上面已經部署好了的大數據平台,只要把數據放進去算就可以了。

雲計算需要大數據,大數據需要雲計算,二者就這樣結合了。

推薦閱讀:

人口危機未富先至,多生孩子就是為民族造福
第三章:大數據技術在配電網中的應用(國內外現狀)
「新旅遊」時代,大數據如何成為推動行業前進的核心驅動力|TBO報道
我們每天面對的屏幕正悄悄改變世界
大數據計數原理1+0=1這你都不會算(五)No.55

TAG:大數據 | 大數據時代 | 雲計算 | 雲計算平台 | 雲平台 |