《數據架構》閱讀筆記(六)數據架構
《數據架構——大數據、數據倉庫以及Data Vault》,作者W.H. Inmon,DanielLinstedt,譯者唐富年,人民郵電出版社,2017年。
筆記中有些內容直接引用原書。
================================================================
1. 數據架構簡史
數據架構最有意義的四個方面:數據的物理表現形式、邏輯聯繫、內部格式、文件格式。
物理演進:紙帶/穿孔卡片——>磁帶——>磁碟存儲器——>並行磁碟、大數據。
邏輯演化:結構化——>層級結構/網路——>關係型——>Data Vault。
內部格式演化:結構化、非結構化——>重複型、非重複型
文件結構演化:文件——>主文件——>資料庫——>ODS、在線、數據倉庫——>維度模型、數據集市
2. 大數據/已有系統介面
重複型原始大數據。要對每條記錄進行解析,定位到感興趣的記錄之後,對感興趣的記錄進行編輯,然後將其傳送給已有系統環境。
可以對重複型原始大數據進行直接分析、簡單搜索,然後提煉,進入到非結構化資料庫。
可以對非重複型原始大數據進行文本消歧,提煉語境,生成語境豐富的大數據,供簡單搜索;也可以在提煉語境後放入非結構化資料庫(可以是標準DBMS),供語境化分析。
可以對保存在非結構化資料庫的中經處理的上述兩類數據再結合經典數據倉庫中的數據進行綜合分析。
3. 數據倉庫/作業環境介面
ETL——>數據倉庫
ETL——>ODS——>數據倉庫
ETL——>集結區——>數據倉庫
可通過日誌磁帶的檢查來捕獲變化數據,避免要將數據更新到數據倉庫時去掃描整個資料庫。
4. 數據架構——一種高層視角
數據架構的高層視角,可以看到以下幾個部分:在線系統的資料庫或文本記錄、ODS、數據倉庫、針對各部門的數據集市、歸檔的大數據系統。
BrianZhang:《數據架構》閱讀筆記(一)企業數據BrianZhang:《數據架構》閱讀筆記(二)大數據BrianZhang:《數據架構》閱讀筆記(三)數據倉庫BrianZhang:《數據架構》閱讀筆記(四)Data VaultBrianZhang:《數據架構》閱讀筆記(五)作業環境BrianZhang:《數據架構》閱讀筆記(七)重複型分析BrianZhang:《數據架構》閱讀筆記(八)非重複型分析BrianZhang:《數據架構》閱讀筆記(九)作業分析1BrianZhang:《數據架構》閱讀筆記(十)作業分析2BrianZhang:《數據架構》閱讀筆記(十一)個人分析BrianZhang:《數據架構》閱讀筆記(十二完結篇)複合式的數據架構軟體開發之路
推薦閱讀:
※為什麼我們需要數據倉庫
※Apache HAWQ數據倉庫最佳實踐
※星型模型和雪花型模型比較
※《數據架構》閱讀筆記(三)數據倉庫
※建設數據倉庫的八個步驟