我現在在專業的分叉點,一個是資料庫,一個是大數據,不知道哪個好點?
大數據是隨著近年來互聯網應用的蓬勃發展而興起的,主要解決了互聯網上數據產生的速度快、結構不規則、數據量大並且有價值的數據比較分散的數據存儲和利用的方案。
一般認為,大數據主要具有以下四個方面的典型特徵:規模性(Volume)、多樣性(Varity)、高速性(Velocity)和價值性(Value), 即所謂的「4V」。
1.規模性。隨著信息技術的高速發展,數據開始爆發性增長。社交網路(微博、推特、臉書)、移動網路、各種智能終端等,都成為數據的來源。淘寶網近4億的會員每天產生的商品交易數據約20TB;臉書約10億的用戶每天產生的日誌數據超過300TB。迫切需要智能的演算法、強大的數據處理平台和新的數據處理技術,來統計、分析、預測和實時處理如此大規模的數據。
2.多樣性。大數據大體可分為三類:一是結構化數據,如財務系統數據、信息管理系統數據、醫療系統數據等,其特點是數據間因果關係強;二是非結構化的數據,如視頻、圖片、音頻等,其特點是數據間沒有因果關係;三是半結構化數據,如HTML文檔、郵件、網頁等,其特點是數據問的因果關係弱。
3.高速性。大數據的交換和傳播是通過物聯網、移動互聯網、雲計算等方式實現的,因此對處理數據的響應速度有更嚴格的要求。
4.價值性。這也是大數據的核心特徵。現實世界所產生的數據中,有價值的數據所佔比例很小。相比於傳統的小數據,大數據最大的價值在於通過從大量不相關的各種類型的數據中,挖掘出對未來趨勢與模式預測分析有價值的數據,並通過機器學習方法、人工智慧方法或數據挖掘方法深度分析,發現新規律和新知識,並運用於農業、金融、醫療等各個領域,從而最終達到改善社會治理、提高生產效率、推進科學研究的效果。
綜上所述,大數據是建立在分散式資料庫、分散式文件存儲等數據存儲方案之上的,並通過數據挖掘、人工智慧、機器學習等一系列手段進行數據分析利用的一類解決方案的統稱。
可以認為資料庫是大數據中一個重要的子範疇,解決了大數據存儲和讀寫的問題。如果能結合數據挖掘、機器學習等數據科學的手段,讓大數據發揮出更大價值,那將可以形成一個大的數據生態鏈。
大數據技術是以數據為本質的新一代革命性的信息技術,在數據挖潛過程中,能夠帶動理念、模式、技術及應用實踐的創新。本書系統性地介紹了大數據的概念、發展歷程、市場價值、大數據相關技術,以及大數據對中國信息化建設、智慧城市、廣告、媒體等領域的核心支撐作用,並對對數據科學理論做了初步探索。
推薦閱讀: