標籤：

大數據(big data)：基礎概念

02-16

本文內容主要來自課程UCSD大學網路課程Big Data的學習筆記+筆者的理解。

1. 為什麼今天是大數據時代

簡單說：大量數據 + 雲計算 = 大數據時代

2. 大數據來自哪裡？

主要來自三個方面：

機器產生的結構數據。
人類產生的非結構數據。
機構產生的混合數據。

機器產生的數據舉例：收銀票據，固定的格式。

人類產生的非結構數據舉例：社交平台的評論數據、上傳的圖片、視頻等等。

機構產生的數據舉例：一家超市，有所有的進銷存數據，客戶購物數據，還有官網對超市的評論等，有結構化的數據，也有非結構化的數據。

3. 大數據如何產生價值

價值來自整合不同類型的數據源!

以超市舉例說明，通過進銷存數據+客戶購物數據+社交網路輿情監測數據，預測接下來幾天的銷售預期，進而制定合適的營銷策略增加銷售。

4. 「大數據(big data)「的定義——6個"V"

我們通過6個維度來定義什麼是"大數據",這個維度的英文單詞都是由字母"V"開頭，所以也可以簡記為6個「V」。分別是：Volume（規模）、Velocity（速度）、Variety（多樣）、Veracity（質量）、Valence（連接）、Value（價值）

Volume（規模）：指的是每天產生的海量數據
Velocity（速度）：指的是數據產生的速度越來越快
Variety（多樣）：指的是數據格式的多樣性，例如文本、語音、圖片等
Veracity（質量）：指的是數據的質量差別可以非常大
Valence（連接）：指的是大數據之間如何產生聯繫
Value（價值）：數據處理可以帶來不同尋常的洞見進而產生價值

5. 「數據科學」的5個「P」

利用大數據產生價值的學問定義為「數據科學」。具體來說，這門學問可以通過以下5個「P」來定義：Purpose(目標)、People（人物）、Process（過程）、Platforms（平台）、Programmability（可編程）

Purpose(目標)：利用大數據想要解決的問題或挑戰
People（人物）：數據科學家往往具備多個領域的技能，包括：科學或商業知識、數據統計知識、機器學習和數學知識、數據管理知識、編程及計算機知識。一般來說往往需要「互補」的多位科學家組隊工作。
Process（過程）：包括如何團隊溝通、使用何種技術、採取什麼工作流程等等
Platforms（平台）：包括採取什麼樣的計算和存儲平台
Programmability（可編程）：開展數據科學需要編程語言的幫助，例如R和patterns，MapReduce等。

6.提出問題

在真正開始進行數據分析之前，提出正確的問題至關重要！！！

名言：正確定義要解決的問題相當於已經解決了問題的一半！

6. 數據分析的工作流程

數據分析的工作流程主要包括5步：

獲取數據
準備數據：包括數據探索和預處理
分析數據：建立模型的過程
展示結果：可視化數據結論
應用結論：提出觀點，形成行動

7. 什麼是分散式文件系統

分散式文件系統的物理狀態就是一堆裝滿主機的機櫃。

分散式文件系統的存儲方式是，首先將一份文件切分為n份（圖中以5份為例），然後將這5份複製後分別存放在不同的機櫃不同的主機中。

為什麼要這樣做？

主要好處有三個：

數據可擴展性(Data Scalability)：存儲量不夠了增加磁碟陣列即可
容錯性(Fault Tolerance)：如果主機或者機櫃宕機，很難導致數據丟失，或系統停止工作
高並發性(High Concurrency)：並行處理數據成為可能

8. Hadoop生態環境

Hadoop是由一系列軟體組成的，用於處理分散式存儲、雲計算、大數據處理等等的各類框架的集和。

我們通過下面這種「層疊結構」的方式來解釋hadoop。「層疊結構」中，上一層的結構依賴於下一層提供的資源。如下圖中，B和c依賴a提供的資源，而b和c之間無任何依賴關係。

hadoop就是一個這樣的「生態環境」，可以用下面的「層疊結構」圖來表示：

下面簡單介紹一部分，其他留給讀者自行了解。

HDFS：分散式存儲文件系統，幾乎所有上層應用的基礎。
YARN：用於調配底層資源、管理進程的管理器
MapReduce：用於通過YARN調配的資源執行簡單程序
Hive：高等級的編程模型，類似SQL的查詢
Pig：高等級的編程模型，數據流腳本

推薦閱讀：

※陳書悅：大數據可否幫助炒股？
※從Google預測流感引發的大數據反思
※用Apache Spark進行大數據處理——第一部分：入門介紹
※大數據計數原理1+0=1這你都不會算(九)No.64
※Kibana 日誌查詢

TAG:大數據 |