《數據架構》閱讀筆記(七)重複型分析

《數據架構——大數據、數據倉庫以及Data Vault》,作者W.H. Inmon,DanielLinstedt,譯者唐富年,人民郵電出版社,2017年。

筆記中有些內容直接引用原書。

================================================================

1. 重複型分析——必備基礎

不同種類的分析。分析有兩種不同的類型:開放式連續分析和基於項目的分析。前者常用於企業的結構化數據領域,在重複型數據領域很少使用。過程是:收集數據、提煉和分析、做出決策(對現實世界產生影響)。然後再重複上述過程不斷調整。後者是只做一次的分析。二者所需的基礎設施極為不同。

尋找模式。尋找模式——>獲得洞察力——>更高效、安全、經濟地自我管理。要警惕假陽性結果的出現,它的出現可能是因為大量未知和隨機的原因造成的。

啟發式處理。分析處理可視為啟發式處理。迭代的過程:需求、開發系統、分析——>重新描述需求、開發系統、分析——>… 。其特徵:剛開始無法知道有多少次重新開發迭代過程;在啟發式過程的周期內,需求既可能很小改變,也可能完全改變;快速的開發速度和結果生成;由於要在迭代中改變演算法,因此需要每次迭代的數據要保持不變,才能比較結果。

沙箱。啟發式處理在沙箱(sandbox)中進行。沙箱是一種供分析師查看和研究數據的環境。

標準概況。被分析對象的構成情況(的概要描述)。有用性:可以使管理人員對系統中將要出現的狀況一目了然;可以確定單個記錄距離標準記錄有多遠。

提煉、篩選。提煉處理的結果是單一結果集。篩選處理結果是對多個記錄的選擇和精鍊。篩選處理的目標是找出所有滿足某種準則的記錄。前者的重點在於分析性和演算法性的處理,而後者的重點在於選取記錄並編輯這些記錄。

建立數據子集。通過篩選創建數據子集,可能出於以下原因:減少需要分析的數據量;處理的純度;安全性。

篩選數據。數據的篩選可以針對資料庫中某一屬性或任何屬性的值。

重複型數據和語境。重複型非結構化數據的語境通常是容易查找的。其中大部分數據相當普通。

鏈接重複型記錄。可以將重複型記錄鏈接到一起,形成一個更大的圖,他們之間形成了某種邏輯上的關聯關係,可以從中推導出更加複雜的內容。

日誌磁帶記錄。日誌磁帶上的信息都是以加密方式存儲的。大多數寫入時不是為了分析處理,二是備份和恢復。

分析數據點。可以通過散點圖進行分析。

按時間的推移研究數據。標準方法之一是排列圖(帕累托圖, Pareto chart)。必須牢記:只要時間足夠長,數據度量的模式都會隨著時間的推移而逐漸變化。

2. 分析重複型數據

可將重複型數據看作以數據塊、記錄和屬性等形式來組織的。數據塊中裝載了記錄(數據單元),數據單元中包含了屬性。需要解析數據塊以發現數據的含義。

日誌數據。解析的記錄類型一般是有限的。要熟悉大數據環境下的數據技術:數據的讀取和解釋;大規模數據的管理。

數據的主動/被動式索引。主動式索引(active

index):為了滿足用戶的數據訪問需求而創建的索引。被動式索引(passive index):按照數據的組織方式創建的,以備人們今後訪問數據時使用。在大數據環境中,索引一般是通過一種名為爬蟲的技術來創建。

匯總/詳細數據。匯總數據可以保存在大數據環境中,但它和原始數據不需要建立聯繫,因為生成的演算法往往不是在大數據環境中存儲的,可以編製說明生成演算法的文檔,放在匯總數據旁邊。

大數據中的元數據。比較重要的兩種形式:原始元數據和導出元數據。典型的原始元數據包括以下信息:欄位名;欄位長度;欄位類型和標識特徵的欄位。導出元數據包括:對如何選擇數據的描述;對何時選擇數據的描述;對數據源的描述;對如何計算數據的描述。

相互關聯的數據。數據的可能聯繫是一種基於概率的聯繫,而不是一種基於實際值的聯繫。

3. 重複型分析

內部、外部數據。大數據技術的出現使得存儲成本降低,可以將外部數據也存儲起來。

通用標識符。一些通用度量包括:時間(格林尼治標準時間)、日期(儒略日)、貨幣(美元)。

安全性。加密。要考慮的問題:加密演算法的安全性如何;誰能對數據進行解密;應該對需要被索引的欄位進行加密嗎;應該如何保護解密密鑰。

篩選、提煉。提煉可以選擇和讀取重複型記錄,之後分析數據、查找平均值、總值、異常值等。在完成分析之後得到單一的結果。篩選與提煉過程相似,但是輸出可以很多記錄。

歸檔結果。項目結束之後為項目創建一個存檔很重要。考慮如下信息:項目中涉及什麼樣的數據;使用了哪些演算法;在項目中有多少次迭代;項目達到了什麼結果;結果存儲在哪裡;誰主導了該項目;該項目的實施花費了多長時間;誰贊助了該項目。

指標。重複型分析開始時,建立一些指標,用來確定一個項目是否已經達到了目標。

BrianZhang:《數據架構》閱讀筆記(一)企業數據zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(二)大數據zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(三)數據倉庫zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(四)Data Vaultzhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(五)作業環境zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(六)數據架構zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(八)非重複型分析zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(九)作業分析1zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(十)作業分析2zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(十一)個人分析zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(十二完結篇)複合式的數據架構zhuanlan.zhihu.com圖標軟體開發之路zhuanlan.zhihu.com圖標
推薦閱讀:

《數據架構》閱讀筆記(十)作業分析2
為什麼我們需要數據倉庫
《Pentaho Kettle解決方案》閱讀筆記
《數據架構》閱讀筆記(三)數據倉庫
Apache HAWQ數據倉庫最佳實踐

TAG:大數據 | 數據倉庫 |