《數據架構》閱讀筆記(八)非重複型分析

《數據架構——大數據、數據倉庫以及Data Vault》,作者W.H. Inmon,DanielLinstedt,譯者唐富年,人民郵電出版社,2017年。

筆記中有些內容直接引用原書。

================================================================

1. 非重複型數據

非重複型數據的每一個數據單元都是唯一的,與前面的數據單元有所不同。因此其相對重複型數據更難處理,其每一個數據單元在用於分析處理之前都必須單獨進行解釋。典型的數據有:電子郵件數據、呼叫中心數據、企業合同、質保索賠、保險索賠。

文本數據通常是非重複型的,搜索技術是處理非重複型數據的方式之一。但有兩個缺陷:搜索技術只是搜索數據,並不能產生一個可以隨後用於分析的資料庫;搜索技術不能查找或者提供當前被分析文本的語境。

將非重複型數據轉換為結構化資料庫格式數據的過程叫做文本消歧或者文本ETL。步驟:1.選定數據單元;2.選定數據單元中感興趣的數據;3.「解析」感興趣的數據;4.確定基本屬性和語境;5.創建基本資料庫記錄。文本消歧中包含的基本邏輯活動:1.語境化:識別和捕獲數據的語境;2.標準化:標準化文本的特定類型;3.基本編輯功能:對文本進行基本的編輯。

內聯語境化(inline contextualization)。只有當文本存在重複和可預測時,才使用。它通過分析一個單詞或者短語之前或之後的文本來推斷其語境的過程。對一句話分析得到起始分隔符、值和結束分隔符。還可能需要指定最大字元數(告訴系統搜索多遠距離)或特殊字元(結束內聯語境化搜索)。

分類法/本體處理。分類法不需要文本重複且可預測,應用範圍廣,而且可以在外部應用。其分析結果取決於分析師選擇的分類法(分類的目的或主題)。該方法通常會得到單詞對。

自定義變數。識別所創建的自定義變數。如零件編號、電話號碼等固定形式的文本。

同形異義消解。不同單詞可能表達不同含義。其中包含幾個要素:1.同形異義詞本身;2.同形異義詞分類;3.同形異義詞消解;4.與同形異義詞類別相關的單詞。

縮略詞消解。將縮略語替換成文字值。

否定分析。對文本中說明的不會發生或未發生事情的識別。

數字標註。對文中出現的數值打標籤,便於分析師分析其含義。

日期標註。對文中出現的日期進行標註。

日期標準化。日期有多種記錄格式,要將日期的格式標準化。

列表的處理。文本中會包含列表,需要識別列表,而不是作為連續的字元串。如「配方:1.大米 2.食鹽 3.辣椒粉 4.洋蔥…」。

聯想式詞處理(associative word processing)。有時文檔的重複是在結構方面,而不是辭彙或內容方面。首先為數據創建一個精心定義的結構,然後根據單詞的常見含義來定義該結構中的單詞。

停用詞處理。停用詞是指那些在正確的語法中必不可少但是在理解文本所表達的含義時卻沒有作用或者不必要的單詞。英語中典型的停用詞有a、and、the、is、that、what、for、to、by等。

提取單詞詞根。拉丁語系和希臘語系的單詞都有詞根。

文檔元數據。有時為組織所管理的文檔建立索引也很有用。索引的創建可以只是索引本身,也可以將索引文本ETL中其他的可用功能一起創建。文檔索引的典型內容包括:文檔創建的日期、文檔最後訪問的日期、文檔最後更新的日期、文檔創建者、文檔長度、文檔標題等。

文檔分類。可以對文檔進行分類,例如按照公司業務分類:勘探、生產、提煉、存儲、配送、零售等。

相近度分析(proximity analysis)。對實際的單詞或者分類法(或者這些要素的組合)進行操作。分析師指定待分析的單詞或分類法,根據文本的需要給出這些詞的相似程度,並且為相近度變數指定名稱。

文本ETL中功能的先後順序。文本ETL中會出現很多不同的功能,其順序對結果有效性具有極大影響。

內部參照完整性。為了能夠對很多不同的變數和很多不同的關係保持跟蹤,文本ETL具有一種複雜的內部結構。為了使文本ETL的任何給定迭代處理都正確執行,必須正確定義內部關係。為了確保所有的內部關係都得以準確定義,在文本ETL運行之前,必須執行驗證處理。

預處理、後處理。預處理中的活動:1.篩選出不想要和不需要的數據;2.修複數據的模糊邏輯;3.數據的分類;4.數據的粗編輯功能;等等。後處理的活動:1.合併;2.前綴消解;3.編輯功能;等等。

2. 映射

映射是一個定義規範的過程,規定了如何使用文本ETL來處理一個文檔。每一種待處理的文檔都對應一個單獨的映射。文本ETL的優良特性在於:分析師可以基於以前的映射規範來創建新的映射。下面列出了分析師在創建映射的過程中需要詢問的問題。

語境化

文本是重複型的嗎?——>內聯語境化

文本是非重複型的嗎?——>分類法

有沒有自定義變數?——>自定義變數規範

有沒有同形異義詞?——>同形異義詞消解

有沒有多種日期?——>日期標註

有沒有多種數字?——>數字標註

有沒有相近度變數?——>相近度變數規範

基本編輯功能

去除停用詞?——>停用詞處理

提取詞根是否有用?——>提取詞根

是否需要替代的拼寫?——>替代拼寫規範

是否需要進行數字轉換?——>轉換數字

有沒有需要處理的否定詞?——>否定性規範

雜項

是否需要文檔元數據?——>文檔元數據規範

是否需要對日期進行標準化?——>日期標準化

是否需要對子文檔進行處理?——>子文檔處理規範

3. 分析非重複型數據

典型的非重複型數據:電子郵件、呼叫中心、企業合同、質保索賠、保險索賠和醫療記錄。

呼叫中心信息分析案例。1.通過對話錄音捕獲對話;2.使用語音識別技術進行轉錄;3.對轉錄副本進行映射:停用詞編輯,同形異義詞識別,分類法識別,縮略語消解;4.文本消歧處理轉錄副本,輸入:原始文本、映射和分類法,輸出:分析資料庫。5.選擇分析工具如Tableau進行分析。通過儀錶板可以觀察:活動處理的時間,處理的是什麼活動,電話的實際內容,研究對象的統計情況。

BrianZhang:《數據架構》閱讀筆記(一)企業數據zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(二)大數據zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(三)數據倉庫zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(四)Data Vaultzhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(五)作業環境zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(六)數據架構zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(七)重複型分析zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(九)作業分析1zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(十)作業分析2zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(十一)個人分析zhuanlan.zhihu.com圖標BrianZhang:《數據架構》閱讀筆記(十二完結篇)複合式的數據架構zhuanlan.zhihu.com圖標軟體開發之路zhuanlan.zhihu.com圖標
推薦閱讀:

用Apache Spark進行大數據處理——第一部分:入門介紹
阿里巴巴大數據之路-數據同步
阿里巴巴大數據之路
我能從本專欄讀到什麼?
零基礎學習Python數據分析:數據處理模塊Pandas使用(3)

TAG:大數據 | 數據倉庫 |