《數據架構》閱讀筆記(四)Data Vault
《數據架構——大數據、數據倉庫以及Data Vault》,作者W.H. Inmon,DanielLinstedt,譯者唐富年,人民郵電出版社,2017年。
筆記中有些內容直接引用原書。
================================================================
1. Data Vault簡介
Data Vault2.0(DV2)是一個商業智能系統,包括建模、方法論、架構和實施這四個方面的最佳實踐,包括以下四個組件:a. DV2建模(對模型性能和可擴展性的更改); b. DV2方法論(遵循Scrum和敏捷最佳實踐); c. DV2架構(包含NoSQL系統和大數據系統); d. DV2實施(基於模式、自動化生成能力成熟度模型集成(CMMI)第五層級)。
商業系統和數據倉庫系統的成熟需要具備以下這些關鍵要素:
a. 可重複性的模式
b. 冗餘架構和容錯系統
c. 高可擴展性
d. 極度的靈活性
e. 可控而一致的變更吸收成本
f. 可測度的關鍵過程區域
g. 缺口分析
h. 大數據和非結構化數據的集成
2. Data Vault建模介紹
Data Vault模型是一種中心輻射式模型,其設計重點圍繞著業務鍵的集成模式。這些業務鍵是存儲在多個系統中的、針對各種信息的鍵(最好是主密鑰),用於定位和唯一標識記錄或數據。
模型中有三種基本的實體(結構):a. 中心表:唯一業務鍵的列表,表示了以橫向方式貫穿企業的實際業務鍵或者主密鑰集合; b. 鏈接表:鍵與鍵之間唯一關係的列表,表示了企業中存在於業務鍵之間的關係和聯繫;
c. 衛星表:歷史的描述性數據,真正的數據倉庫組件,存儲了歲時間推移的非易失數據。
Data Vault建模的基本規則:a. 業務鍵是按照粒度和語義內涵進行分割的; b. 關係、事件和跨兩個或者多個業務鍵的交叉關係都要存放在鏈接結構中; c. 鏈接結構沒有開始或者結束日期,他們只是對數據到達數據倉庫那一時刻的關係的一種表達; d. 衛星表是按照數據類型以及變更的類別和速度進行分割的。數據類型一般都是單一的源系統。
多鏈接結構是為了允許Data
Vault模型中的關係隨時間不斷擴展,否則數據模型和ELT/ETL裝載程序都需要重新構建。散列鍵代替順序號是為了在裝載數據時消除依賴性,採用順序方式會迫使負載堆疊到一起,不僅減緩了裝載過程,還扼殺了並行處理的可能性,甚至切斷了參照完整性。
3. Data Vault架構介紹
DV基於三層數據倉庫架構:集結區(登陸區)、數據倉庫和信息交付層(或數據集市)。多層結構使實現人員可以對企業數據倉庫去耦合化,將數據來源和獲取功能與信息交付和數據供應功能分解開來。
BrianZhang:《數據架構》閱讀筆記(一)企業數據BrianZhang:《數據架構》閱讀筆記(二)大數據BrianZhang:《數據架構》閱讀筆記(三)數據倉庫BrianZhang:《數據架構》閱讀筆記(五)作業環境BrianZhang:《數據架構》閱讀筆記(六)數據架構BrianZhang:《數據架構》閱讀筆記(七)重複型分析BrianZhang:《數據架構》閱讀筆記(八)非重複型分析BrianZhang:《數據架構》閱讀筆記(九)作業分析1BrianZhang:《數據架構》閱讀筆記(十)作業分析2BrianZhang:《數據架構》閱讀筆記(十一)個人分析BrianZhang:《數據架構》閱讀筆記(十二完結篇)複合式的數據架構軟體開發之路推薦閱讀:
※AI時代:聊聊大數據中的MapReduce
※又一國家級!浪潮獲評大數據應用領域首個國家專業化眾創空間
※如何利用八爪魚,實現餐飲大數據(以辰智商圈秀為例)
※定位大數據分析平台,Kyligence憑開源優勢謀全球業務擴張
※我們每天面對的屏幕正悄悄改變世界