《數據架構》閱讀筆記(五)作業環境
《數據架構——大數據、數據倉庫以及Data Vault》,作者W.H. Inmon,DanielLinstedt,譯者唐富年,人民郵電出版社,2017年。
筆記中有些內容直接引用原書。
================================================================
1. 作業環境——簡史
2. 標準工作單元
服務等級協議(service level agreement, SLA)規定了在線事務處理環境中性能和服務可接受的等級。SLA包含平均響應時間和系統可用性,而且SLA僅涵蓋工作時間。
3. 面向結構化環境的數據建模
只要粒度化的數據。數據模型僅僅是圍繞著組織中粒度化的細節數據來塑造的。當數據建模師允許總數據或者合計數據進入數據模型,那麼會出現以下不好的情況:a. 需要對海量數據進行建模; b. 計算匯總數據的公式變化很快,要比建模師創建和變更模型的速度快; c. 不同的人群採用了不同的計算公式。
創建模型的第一步是從數據模型中刪除所有推導出來的數據(即匯總數據或合計數據)。當識別出粒度化的數據後,下一步就是對數據進行「抽象」。需要將數據抽象到其有意義的最高層級。假如公司生產跑車、轎車、SUV和卡車,在數據模型中將這些數據抽象為一個「車輛」實體。
實體關係圖。數據模型最高層次的抽象叫做實體關係圖(entity relationship diagram, ERD)。
數據項集。實體的下一層級是數據項集(data item set, DIS),具有更多的細節,說明了實體的鍵、屬性和關係。
物理資料庫設計。DIS中的每一個數據分組都會產生一個單獨的資料庫設計。資料庫設計要考慮數據的物理結構、數據的物理特徵、鍵的規範、索引的規範等。數據的物理規範的結果就是產生一個資料庫設計。
由於在同一行業中數據模型存在很大的相似性,出現了一種名為通用數據模型的模型。採用通用數據模型要比從零開始建立一個數據模型成本更低而且更快捷。
4. 元數據
經典定義是「關於數據的數據」。實際上,元數據是定義操作系統、資料庫管理系統和應用程序中數據的重要特徵的描述數據。
典型元數據。資料庫的典型元數據包括以下各項的定義:表名、屬性、屬性的物理特徵、鍵、索引和有關係統中數據的其他描述性信息。
5. 結構化數據的數據治理
修複數據。導致數據損壞的原因有很多:同一數據有多種混雜的定義;數據根本就不是集成的、或者說集成得不正確;未能正確進行數據的獲取;沒有正確定義和強制執行的記錄系統;計算和演算法的創建不正確;業務需求發生變化而數據並未發生變化。
數據修復一般始於對問題的確定。當問題明確之後,就至少需要完成以下三個步驟:a. 需要重新定義數據; b. 需要重新為系統指定數據; c. 需要對支持數據的代碼進行修改。
BrianZhang:《數據架構》閱讀筆記(一)企業數據BrianZhang:《數據架構》閱讀筆記(二)大數據BrianZhang:《數據架構》閱讀筆記(三)數據倉庫BrianZhang:《數據架構》閱讀筆記(四)Data VaultBrianZhang:《數據架構》閱讀筆記(六)數據架構BrianZhang:《數據架構》閱讀筆記(七)重複型分析BrianZhang:《數據架構》閱讀筆記(八)非重複型分析BrianZhang:《數據架構》閱讀筆記(九)作業分析1BrianZhang:《數據架構》閱讀筆記(十)作業分析2BrianZhang:《數據架構》閱讀筆記(十一)個人分析BrianZhang:《數據架構》閱讀筆記(十二完結篇)複合式的數據架構軟體開發之路推薦閱讀:
※筆記 | 如何選擇一個靠譜的物聯網平台
※又一國家級!浪潮獲評大數據應用領域首個國家專業化眾創空間
※中華財寶:珠寶行業在大數據時代該如何前行?
※MaxCompoute禁止Full Scan功能開放
※關於機器學習,你需要知道的三件事!