《數據架構》閱讀筆記（四）Data Vault

03-06

《數據架構——大數據、數據倉庫以及Data Vault》，作者W.H. Inmon，DanielLinstedt，譯者唐富年，人民郵電出版社，2017年。

筆記中有些內容直接引用原書。

================================================================

1. Data Vault簡介

Data Vault2.0(DV2)是一個商業智能系統，包括建模、方法論、架構和實施這四個方面的最佳實踐，包括以下四個組件：a. DV2建模（對模型性能和可擴展性的更改）； b. DV2方法論（遵循Scrum和敏捷最佳實踐）； c. DV2架構（包含NoSQL系統和大數據系統）； d. DV2實施（基於模式、自動化生成能力成熟度模型集成（CMMI）第五層級）。

商業系統和數據倉庫系統的成熟需要具備以下這些關鍵要素：

a. 可重複性的模式

b. 冗餘架構和容錯系統

c. 高可擴展性

d. 極度的靈活性

e. 可控而一致的變更吸收成本

f. 可測度的關鍵過程區域

g. 缺口分析

h. 大數據和非結構化數據的集成

2. Data Vault建模介紹

Data Vault模型是一種中心輻射式模型，其設計重點圍繞著業務鍵的集成模式。這些業務鍵是存儲在多個系統中的、針對各種信息的鍵（最好是主密鑰），用於定位和唯一標識記錄或數據。

模型中有三種基本的實體（結構）：a. 中心表：唯一業務鍵的列表，表示了以橫向方式貫穿企業的實際業務鍵或者主密鑰集合； b. 鏈接表：鍵與鍵之間唯一關係的列表，表示了企業中存在於業務鍵之間的關係和聯繫；

c. 衛星表：歷史的描述性數據，真正的數據倉庫組件，存儲了歲時間推移的非易失數據。

Data Vault建模的基本規則：a. 業務鍵是按照粒度和語義內涵進行分割的； b. 關係、事件和跨兩個或者多個業務鍵的交叉關係都要存放在鏈接結構中； c. 鏈接結構沒有開始或者結束日期，他們只是對數據到達數據倉庫那一時刻的關係的一種表達； d. 衛星表是按照數據類型以及變更的類別和速度進行分割的。數據類型一般都是單一的源系統。

多鏈接結構是為了允許Data

Vault模型中的關係隨時間不斷擴展，否則數據模型和ELT/ETL裝載程序都需要重新構建。

散列鍵代替順序號是為了在裝載數據時消除依賴性，採用順序方式會迫使負載堆疊到一起，不僅減緩了裝載過程，還扼殺了並行處理的可能性，甚至切斷了參照完整性。

3. Data Vault架構介紹

DV基於三層數據倉庫架構：集結區（登陸區）、數據倉庫和信息交付層（或數據集市）。多層結構使實現人員可以對企業數據倉庫去耦合化，將數據來源和獲取功能與信息交付和數據供應功能分解開來。

BrianZhang：《數據架構》閱讀筆記（一）企業數據zhuanlan.zhihu.com

BrianZhang：《數據架構》閱讀筆記（二）大數據zhuanlan.zhihu.com

BrianZhang：《數據架構》閱讀筆記（三）數據倉庫zhuanlan.zhihu.com

BrianZhang：《數據架構》閱讀筆記（五）作業環境zhuanlan.zhihu.com

BrianZhang：《數據架構》閱讀筆記（六）數據架構zhuanlan.zhihu.com

BrianZhang：《數據架構》閱讀筆記（七）重複型分析zhuanlan.zhihu.com

BrianZhang：《數據架構》閱讀筆記（八）非重複型分析zhuanlan.zhihu.com

BrianZhang：《數據架構》閱讀筆記（九）作業分析1zhuanlan.zhihu.com

BrianZhang：《數據架構》閱讀筆記（十）作業分析2zhuanlan.zhihu.com

BrianZhang：《數據架構》閱讀筆記（十一）個人分析zhuanlan.zhihu.com

BrianZhang：《數據架構》閱讀筆記（十二完結篇）複合式的數據架構zhuanlan.zhihu.com

軟體開發之路zhuanlan.zhihu.com