《數據架構》閱讀筆記(二)大數據

《數據架構——大數據、數據倉庫以及Data Vault》,作者W.H. Inmon,DanielLinstedt,譯者唐富年,人民郵電出版社,2017年。

筆記中有些內容直接引用原書。

================================================================

第二章 大數據

大數據是結構化的還是非機構化的?答案取決於如何定義結構化和非結構化。目前對於「結構化」的最廣泛的定義是:所有通過標準DBMS管理的數據都是結構化的。要將數據裝載到DBMS中,就需要對系統的邏輯特徵和物理特徵進行仔細定義。所有數據(包括屬性、鍵和索引)都需要裝載到系統之前進行定義。

如果結構化指的是包含帶有可預見語境的重複型數據,那麼可以大數據中的重複型數據是結構化的。

重複型非結構化數據容易進行分析的原因如下:a. 記錄的表現形式是統一的; b. 記錄通常短小而緊湊; c. 容易找到記錄中的語境信息,因而容易解析。

非重複型非結構化數據較難分析的原因如下:a. 在表現形式上非常不統一; b. 有時小,有時大,有時非常大; c. 記錄的解析非常困難,很多記錄是文本組成的。文本處理比較複雜。

一個本體(ontology)可簡單定義為一個分類法,且在這個分類法中的元素存在著相互關聯的關係。

BrianZhang:《數據架構》閱讀筆記(一)企業數據zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(三)數據倉庫zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(四)Data Vaultzhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(五)作業環境zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(六)數據架構zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(七)重複型分析zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(八)非重複型分析zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(九)作業分析1zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(十)作業分析2zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(十一)個人分析zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(十二完結篇)複合式的數據架構zhuanlan.zhihu.com圖標軟體開發之路zhuanlan.zhihu.com圖標
推薦閱讀:

《數據架構》閱讀筆記(三)數據倉庫
為什麼我們需要數據倉庫
Apache HAWQ數據倉庫最佳實踐
《數據架構》閱讀筆記(四)Data Vault
建設數據倉庫的八個步驟

TAG:大數據 | 數據倉庫 |