大數據究竟大在哪???
來自專欄 數據挖掘及分析
今日分享熱詞:大數據(Big Data)
為什麼要首先分享這一個詞呢?一是因為它熱,熱到大家都把他當做談資,二是因為大數據正是數據挖掘及分析的對象,也利於理解以後分享的內容。
一起來了解下大數據的前世今生:
一:大數據的定義
大數據這一個詞的出現,在上世紀80年代就有美國人曾提出來,直到2008 年 9 月,《科學》雜誌發表文章「Big Data: Science in the Petabyte Era」,「大數據」這個詞才開始廣泛傳播。
小編從網上找了以下幾個關於大數據的定義:
1:Wikipedia:
Big data is a term for data sets that are so large or complex that traditional data processing application software is inadequate to deal with them.
也就是說無法利用傳統的數據處理軟體來處理的大且複雜的數據集
2:IBM:
Big Data is being generated at all times. Every digital process and social media exchange produces it. Systems, sensors and mobile devices transmit it. Much of this data is coming to us in an unstructured form, making it difficult to put into structured tables with rows and columns.
主要強調了大數據是時時刻刻在產生,產生的途徑比如我們常見的社交媒體、穿戴設備、感測器等,同時也強調了其非結構化特徵,很難存儲於結構化的資料庫中。
3:全球知名諮詢公司麥肯錫是這樣定義的:
大數據是指無法在一定時間內用傳統資料庫軟體工具對其內容進行採集、存儲、管理和分析的數據集合。
以上幾個定義是有交集的,也就是大數據的普遍定義了:量大複雜、無法用傳統的手段來處理。
下面再說一下大數據的特徵,會更利於理解
二:大數據的特徵
關於大數據的特徵也是有很多說法,好的是是前後繼承發展的
1:The concept gained momentum in the early 2000s when industry analyst Doug Laney articulated the now-mainstream definition of big data as the three Vs:
這個3V特徵是最先主流的一種說法:
Volume(數據體量大). Organizations collect data from a variety of sources, including business transactions, social media and information from sensor or machine-to-machine data. In the past, storing it wouldve been a problem – but new technologies (such as Hadoop) have eased the burden.
數據來源渠道多,商業交易終端、社交媒體、感測器,舉幾個咱們熟悉的例子,比如超市的收銀、pose機、RFID手持終端,社交媒體比如QQ、微信、微博等、還有一些運動感測器、手環等等,這些設備都是海量數據的來源。在以往是沒有這些數據的,而現在有了,但是以前的數據處理器處理軟體已經跟不上這些需要,必須要有新的設備,比如文中提到的Hadoop【Hadoop實現了一個分散式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,並且設計用來部署在低廉的(low-cost)硬體上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。】
Velocity(處理速度快). Data streams in at an unprecedented speed and must be dealt with in a timely manner. RFID tags, sensors and smart metering are driving the need to deal with torrents of data in near-real time.
處理速度快主要強調了數據的時效性,這主要是講的流式數據的時效性,也就是上一秒數據產生,下一秒就要把這些數據的影響分析出來。
Variety(數據種類多). Data comes in all types of formats – from structured, numeric data in traditional databases to unstructured text documents, email, video, audio, stock ticker data and financial transactions.
種類多主要是強調數據的分類:結構化、非結構化、還有一種分類是半結構化
對於這個結構化非結構化的區別,曾在研究生期間課堂上請教過老師,具體是這樣:結構化數據(即行數據,存儲在資料庫里,可以用二維表結構來邏輯表達實現的數據(二維表結構可以理解為Excel表那樣,通過坐標就可確定一個值))、非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等
2:在後來的發展過程中,大數據的特徵又有所發展
Value(低價值性)可以這樣理解:某交通路口的交通燈,基本上全年全天候監控,這產生的數據量是非常大的,而對官方來說真正有用的可能就是出現事故、闖紅燈事的那些時間,所以其價值密度是很低的。
Veracity(真實性)主要包括數據的可信性、真偽性、來源和信譽、有效性等。
1、2這5V特徵基本概括了大數據的所有特徵,當然不否認後來還會有學者提出。
以上的5維特徵可能主要流行於學術界,我讀paper是接觸到的是這些說法,直到今天科學上網登Wikipedia時,不才才發現還有另一種特徵的提法:
3:Factory work and Cyber-physical systems may have a 6C system:
Connection (sensor and networks)關聯性
Cloud (computing and data on demand)雲計算特徵
Cyber (model and memory)網路特徵
Content/context (meaning and correlation)文本特徵
Community (sharing and collaboration)社交性
Customization (personalization and value)獨特性
這種特徵法可能更適合於工業界、物理網路空間
希望以上的分享會有助於大家對大數據這一概念有所了解
Reference引用:
[1]https://en.wikipedia.org/wiki/Big_data
[2]https://www.ibm.com/analytics/us/en/big-data/
[3]https://www.sas.com/en_us/insights/big-data/what-is-big-data.html
[4]https://en.wikipedia.org/wiki/Big_data#Characteristics
[5]大數據研究綜述;陶雪嬌,胡曉峰,劉洋;國防大學信息作戰與指揮訓練教研部
公眾號:數據挖掘機分析
原文地址:大數據究竟大在哪???
需要參考文獻原文的話請後台回復:參考文獻
推薦閱讀:
※大數據時代來臨,數據應用隨處可見
※《數據架構》閱讀筆記(十二完結篇)複合式的數據架構
※OpenStack Liberty版 安裝配置——第一章(配置實驗環境)
※科技和文化:新經濟的左右腦
※《大數據和我們》讀後感