《數據架構》閱讀筆記(三)數據倉庫
《數據架構——大數據、數據倉庫以及Data Vault》,作者W.H. Inmon,DanielLinstedt,譯者唐富年,人民郵電出版社,2017年。
筆記中有些內容直接引用原書。
================================================================
豎井式系統(silo system)環境:在整個架構中,數據完全存在於某個應用程序所限定的「豎井」中,而在豎井式系統環境的外部則完全沒有信息的集成。
數據倉庫是面向決策支持系統(decision support system,DSS)的,是一個面向主題的、集成的、非易失且時變的數據集,用於支持管理決策。數據倉庫的另一個術語是「事實的唯一版本」,它為可信的企業數據奠定了基礎。它所表現的是整個企業的數據,而不是應用程序的數據。
數據倉庫是一套完整的基礎設施,包括ETL技術和作業系統;包括數據集市,它的結構圍繞著Ralph Kimball所倡導的維度技術;還包括作業數據存儲(operational data store, ODS),它是整個架構的關鍵組成部分之一。數據倉庫演化為企業信息工廠(corporate information factory, CIF),接著又演進到了DW 2.0架構。
非結構化數據也是數據倉庫領域中非常重要和關鍵的一個方面。元數據是基礎設施不可或缺的一個組成部分。企業元數據和本地元數據同樣重要。
數量眾多的應用程序沒有進行數據統一,包括:相同數據的命名約定;相同數據的物理屬性;相同數據的屬性的物理結構;相同數據的值的編碼方式。
ETL技術使得企業數據有了統一的定義,包括:標準化命名約定;標準化數據的物理屬性;標準化數據的編碼值;標準化數據的計算;標準化數據的分類。
為了滿足各種獨特視角對匯總數據和合計數據的不同需求,人們採用了一種不同的數據結構——數據集市(data mart)。每個組織都有其自己的數據視角,但所有的數據都源自數據倉庫中的顆粒化數據。不同的數據部門可以對數據建立不同的解釋。
維度模型是一種優化的、用於數據集市的資料庫設計。每個部門的數據集市都有一個與眾不同的維度模型,而維度模型的所有數據來自於數據倉庫。維度模型有時稱作「星型聯接」或「雪花模型」。維度模型包括一個事實表和若干維度。維度模型的主要價值在於它很容易創建並且易於分析,當需要改變維度模型時,創建一個新模型通常比維護一個舊模型更加簡單。
作業數據存儲(operational data store, ODS)。可以幫助對集成數據進行在線事務處理,可以對非集成且難以處理的作業系統的數據進行集成,可以幫助組織對集成數據進行在線更新(數據倉庫無法支持在線更新)。作業應用程序將事務數據直接或間接(通過ETL介面)發送給ODS,ODS與數據倉庫有介面。數據到了ODS之後,就可以在那裡進行在線事務處理。ODS中的數據也會被集成。
ODS和數據倉庫的區別。ODS:面向主題的,集成的,易失的,取當前值的。數據倉庫:面向主題的,集成的,非易失的,時變的。數據倉庫中保存5-10年數據很正常,ODS中很少保存超過30天的數據。二者在保存歷史數據規模上有很大差別。
ODS分類。I類ODS:作業環境轉到ODS在毫秒級。II類ODS:若干小時。III類:第二天才更新到ODS。
數據倉庫的好處:從企業視角來看待數據;從集成視角來看待數據;研究跨度很長時期的數據;為組織中的多個群體提供唯一的數據基礎。
數據倉庫不應作為進行在線高性能事務處理基礎設施。a. 如果為數據捕獲了快照後,又因為在線處理更改了快照數據,那麼久破壞了數據的完整性;
b. 針對數據倉庫的查詢類型眾多,不像在線系統一樣是同質工作負載,無法取得快速的響應時間。不要在數據倉庫中進行長時間的頻繁的統計處理,其佔用的資源太多,會影響一般用戶的查詢。如果需要經常統計,則需要建立一個探查倉庫(exploration warehouse)。
BrianZhang:《數據架構》閱讀筆記(一)企業數據BrianZhang:《數據架構》閱讀筆記(二)大數據BrianZhang:《數據架構》閱讀筆記(四)Data VaultBrianZhang:《數據架構》閱讀筆記(五)作業環境BrianZhang:《數據架構》閱讀筆記(六)數據架構BrianZhang:《數據架構》閱讀筆記(七)重複型分析BrianZhang:《數據架構》閱讀筆記(八)非重複型分析BrianZhang:《數據架構》閱讀筆記(九)作業分析1BrianZhang:《數據架構》閱讀筆記(十)作業分析2BrianZhang:《數據架構》閱讀筆記(十一)個人分析BrianZhang:《數據架構》閱讀筆記(十二完結篇)複合式的數據架構軟體開發之路推薦閱讀: