數據標準在數據資產管理中的意義
一、 數據資產管理是做什麼的?
隨著大數據的持續升溫,數據資產管理近年來成為政府和企業領導層特別關注的領域。儘管出現了很多專家和專著,但真正理解這個概念的人並不多,懂得如何實操數據資產管理、在企業中真正落地的更寥寥無幾。筆者有幸參與了國內幾個典型項目,想借本文從數據標準這個角度和業界同仁們分享一點自己的思考和心得。
筆者是從2001年開始踏入數據這個領域的,那時候中國移動還在準備出第一個經營分析系統建設規範,中國建行開始準備建立銀行的第一個數據倉庫平台,那時候當然沒有什麼大數據的概念,數據資產管理的概念還沒有出現。從業16年,無論是企業數據架構的諮詢還是數據平台的建設,數據標準一直成為常伴的主旋律。從不知道數據標準是何物到為運營商、銀行、證券行業、保險行業實施了一個又一個企業或行業數據治理項目,我和我所在的團隊對數據標準的理解愈來愈深刻;因此當近年來數據資產管理的概念甫一出現,我們能夠清楚地看到數據標準在數據資產管理領域中的關鍵作用。
要搞清楚數據標準的建設意義和作用,首先就要清楚數據資產管理是做什麼的。按照DAMA的定義,數據資產管理是企業或組織採取的各種管理活動,用於保證數據資產的安全、完整、合理配置、有效利用,從而提升經濟效益。
業界經常將數據資產管理和數據管理、數據治理交換的使用,嚴格的說幾個名詞之間還是有一定的區別的,但簡單的說,數據資產管理並非全新的概念,從實踐落地的角度看,數據治理是基礎和主幹部分,再加上關於數據價值評估和管理的內容就是數據資產管理的全部範疇。本文先聚焦數據治理這一主幹部分,但簡明起見,通篇暫時統一使用「數據資產管理」的表達,關於詳細的概念辨析再找機會單獨探討。
一個擁有大量數據的企業,要發揮其數據的價值必須整合和加工現有或新建的各種信息系統或者業務應用中的數據,並通過將經過處理的數據嵌入到業務流程中,實現智慧化生產,智慧化管理。數據資產管理就是在上述從數據產生到數據整合、加工、使用的端到端價值實現過程中,管理各個環節的數據定義、格式、值域範圍、業務規則、加工邏輯,安全許可權以及數據之間的加工依賴關係等一系列事項。數據資產管理的目的是讓數據的使用者能夠清楚地認識數據和數據關係,進而能夠用好數據;讓數據應用的管理者能夠洞察數據、應用、系統之間的複雜依賴關係,進而能夠管好數據。數據資產管理領域的基本範疇如下圖所示:
上圖中的各項內容其實也是我們在每一個企業或者行業實施數據管控類項目中必然會涉足的關鍵領域。
二、 數據標準在數據資產管理中的意義
在談數據的價值之前,必須先說清楚所談論的數據資產都有那些,都是什麼,也就是要先梳理企業數據的定義。數據資產管理領域中有兩樣的事情都與數據定義相關:數據標準和數據模型。這兩項工作一個負責給數據下定義,另一個負責描述描繪數據關係。這兩件事情在一個企業中會被高度重視並完成,動力源於大數據時代「數據整合」的需求。
給大家一個簡單的例子,就會明白為什麼當數據被整合時需要數據標準。還是拿銀行來說,大多數現代銀行的IT系統產生並存儲客戶資料的是兩個主要系統,銀行核心系統和信貸管理系統。這兩個系統在建設時一般都是各自獨立進行的,也就是說,兩個系統各自獨立設計自己的「客戶信息表」。下圖中一個是TATA公司BANCS系統的客戶信息表,另一個是國內某公司信貸系統的客戶信息表。
BANCS客戶信息表
國內某銀行信貸系統客戶信息表
試問,如果要建立一個數據整合平台,統一存儲銀行全部的客戶資料時,「客戶信息表」該如何創建?這就需要建設「客戶數據標準」來整合銀行內部不同業務系統產生的客戶信息。
客戶數據標準示例
數據標準化的過程其實就是在數據整合平台實現數據標準,並將各個系統產生的數據通過清洗、轉換載入到整合平台的數據模型中,實現數據標準化的過程。一個企業內部的數據標準化方式如此,一個行業監管機構在採集全行業數據時的數據標準化過程也是如此,例如,銀監會在向全國銀行機構採集明細數據的EAST介面事實上就是銀行業基礎數據標準,保監會在向全國保險機構採集保單明細數據的介面事實上就是保險行業基礎數據標準。
綜上所述,數據資產管理的第一步要釐清企業擁有哪些數據,需要整合數據,而構建數據整合平台則必須要建立一套數據標準和數據模型,實現數據的標準化。
三、 如何構建數據標準
接下來要回答的問題就是,建立數據標準該從哪裡著手?
我們都知道,建設一個業務系統實際上是將企業或者行業的運作機制IT化和系統化的過程,需要從梳理業務流程和管理流程開始。類似的,建設數據標準就是將數據的表達和使用統一和系統化的過程,首先就要梳理數據產生和應用的全部範圍。對於一個企業來講,這往往意味著數據標準的建立需要從盤點企業內部全部生產系統中的數據開始;那麼對於擴大的場景,例如建設某個行業的數據標準或者是某項政府數據標準又該如何開展工作呢?通過一系列金融行業數據標準的項目,我們總結了一套構建數據標準的通用方法論,稱之為BOR方法:
其中B – Behavior代表各種社會活動/行為;O – Object,是參與主體和活動產生的對象; R –Relationship意指主體/對象之間的關係。無論是企業、政府,還是社會,都是由大大小小的社會活動和行為構成的;而參與這些行為和活動的正是各種類型的社會主體,並且在活動過程中創造併產生了各種對象,包括生產出來的產品,簽署的合同,記錄行為的各種憑證,登錄應用的賬號等等;這些對象也因為活動和行為而產生了各種連接關係,在數據建模的領域裡稱之為對象間關係。假設今天我們有一個巨大的生產系統可以將人類的每個行為/活動全部IT化,系統化,那麼這個系統中產生的數據就是要建設的數據標準的全部範圍。
因此,簡單的說,BOR方法就是指,依據所要構建的數據標準覆蓋的行為/活動,梳理這些活動中涉及到的全部Objects(主體、對象),以及Objects之間的關係,構建數據標準的過程,就是定義Objects和Behavior的組成要素(也叫信息項),並通過數據模型刻畫Objects之間的一對一、一對多和多對多關係的過程。
保單要素標準化梳理過程
證券行業數據標準梳理過程
因為數據標準涉及到的Objects往往很多,為了方便建設和記憶,往往採用的是自頂向下的梳理方法,首先構建數據標準的主題域,釐清數據主題域之間的邏輯關係,再逐級分解,定義各個主題域下的重要實體和實體間關係,最後定義每個實體中的標準信息項,包括業務含義、加工規則、值域範圍、業務代碼等內容。
數據標準的建設方法並不難掌握,關鍵是建設過程中需要收集並整理大量的業務規範、制度章程、法律法規、監管規定、國家標準,並將這些規定具象到數據標準定義的信息項中,對於一個從未做過數據標準的實施團隊而言,這將意味著巨大的工作量。
四、 數據標準是數據資產管理的基石
簡單的總結上面幾部分:數據標準是數據資產管理的基礎,是對數據資產進行準確定義的過程。對於一個擁有大量數據資產的企業,或者是要實現數據資產交易的企業而言,構建數據標準是一件必須要做的事情。數據標準通用的建設方法是BOR方法,從梳理業務活動開始,為活動的主體和對象建立數據標準,並使用數據模型刻畫對象間的邏輯關係。
希望筆者在本文中分享的一些思考和實踐對企業、政府和行業主管部門的數據資產管理工作有些許的助益,並預祝各位讀者在數據標準建設領域裡都能夠有所成就。
推薦閱讀:
※知識分享 | 不超3分鐘看懂「PHM」!
※2017年大數據學習計劃
※大數據和人工智慧之間的實質性關聯產生的巨大影響力
※從頭學習大數據培訓課程 數據倉儲工具 hive(七)hive 自定義 UDTF
※MaxComputeSql性能調優
TAG:大數據 |