數據治理的主戰場,商業智能還是數據挖掘?
一、 什麼是數據治理
先來兩個定義看看,一個是DAMA的,一個是我司數據戰略裡面的:
1、 數據治理是對數據資產的管理行使權力和控制的活動集合(規劃、監控和執行),數據治理職能指導其他數據管理職能如何執行。
2、 數據治理是對數據管理和服務行駛權利和控制的活動集合,在數據管理和服務層面之上進行規劃、監督和控制,數據治理是數據體系得以落實的高階保障。
不論其位置在數據體系的中心,還是在上面宏觀指導著,都可以簡單的概括為這是針對各項管理職能的管理,討論的是組織、角色、制度、流程之類的內容。
數據治理這門學問,入手極易,精通極難。說說經驗吧,數據治理強調兩點,一是高層支持,二是各部門廣泛參與。組織內數據治理各項工作的開展都要處理好這兩個問題,搞定了就能事半功倍。其實這些經驗書里都寫了,不過在數據治理實踐中光看書啥用沒有;還是那句話,入手易精通難。看下面DGI的數據治理框架,寫的很清晰透徹,但每一步怎麼做就能看出本事了。
想要做好數據治理,那要求還是蠻高的,要懂業務、懂數據、懂技術,所謂上能寫制度辦法,下能查數做分析;另外還要懂權衡、懂策略,甚至學學兵法,因為具體工作八成都是跟人有關,些許複雜。要求雖高,但實踐往往要面對無力感和挫敗感兩種不舒服的體驗,只能說還要有合適的性格和心態,不同的人適合不同的崗位了。
二、 商業智能是數據治理的主戰場
商業智能描述了一系列的概念和方法,通過應用基於事實的支持系統來輔助商業決策的制定;商業智能技術提供使企業迅速分析數據的技術和方法,包括收集、管理和分析數據,將這些數據轉化為有用的信息,然後分發到企業各處(Gartner定義)。
不談定義,從上面圖片中能看到數據採集、加工、整合、應用的生命周期,以及數據標準、數據質量、數據架構、元數據這些職能域,還有數據開發、數據分析、業務指標體系等等應用視角的內容。在dmbok中商業智能與數據倉庫放在一起,數據倉庫是矛盾集中的焦點,上游是組織內各個業務源系統,下游支持廣泛的數據應用。
數據是流行的資產,需要跨系統、跨業務條線的綜合治理,需要有機構統籌規劃與決策、協調與推進。企業管理數據資產,就是管理數據的生命周期。數據先被創建或獲得,然後存儲、維護和使用,最終被銷毀。有效的數據管理,數據的生命周期開始於數據獲取之前,企業先期制定數據規劃、定義數據規範,以期獲得實現數據採集、交付、存儲和控制所需的技術能力。
無論專業角度還是實踐角度,商業智能都是數據治理的主戰場,在組織內干係人眾多,影響範圍深遠。當然,如果你所在的組織已經完成基本的BI系統建設,需要或已經進入大數據應用建議的水平,那麼數據治理的主戰場就該轉移了。
三、 數據驅動與數據分析
數據時代,尤其是大數據時代,各種名詞概念層出不窮。這裡面討論下商業智能、數據分析、數據挖掘、數據驅動,這些名詞出現在不同時期,有不同的背景或場景,不在贅述。
概念雖然帶來困惑,但其實又無妨,對組織來說關心的是數據價值的實現,組織應該具備的是認同數據的意義和價值,也就是數據之道。從這裡看,數據驅動其實更多是一種文化,建立對應的數據價值體系,涵蓋數據採集、報告、分析、行動到價值實現的完整流程。增長黑客和AARRR海盜法則這些更適合初創公司,有完整的流程和指標體系可以參考。對於傳統行業來說,主要的困難在於無法真正建立這種數據驅動文化,分開來各項活動都在開展,但在整體上難以形成順暢的流程。當然,這也是我們努力的目標,至少可以先從數據治理和數據應用的層面做好準備。
四、 數據挖掘是數據治理未來的主戰場
下面要說說數據挖掘了,數據挖掘又稱為資料庫中知識發現(KDD),它是一個從大量數據中抽取挖掘出未知的、有價值的模式或規律等知識的過程。廣義的數據挖掘是指知識發現的全過程,狹義的數據挖掘是指統計分析、機器學習等發現數據模式的智能方法,即偏重於模型和演算法。
實際中我們的工作屬於廣義的數據挖掘,組織對於數據應用的需求也逐步從描述階段進入到挖掘階段。尤其是大數據時代,數據挖掘是大數據王冠上的明珠,甚至有人認為大數據僅僅是數據挖掘的另外一個名稱。數據挖掘涉及數據來源、干係人範圍可以超出組織層面,對於數據治理活動來說可以順利接棒商業智能成為主戰場,同時也對數據治理提出了更高的需求。
現在討論大數據下的數據挖掘,應該和場景關聯起來思考問題,因為數據質量和業務需求、技術方案密切相關。場景本身就是需要數據治理需要考慮的問題,以及對應的流程機制都需要進行規劃。
數據挖掘直接關心的是數據質量,而數據質量是人與人矛盾分歧最大的職能域,所以通常也配置全套的數據治理手段。細節不多談,現在討論大數據下的數據挖掘,應該和場景關聯起來思考問題,因為數據質量和業務需求、技術方案密切相關。大數據背景下數據質量的屬性擴展了,一個是可鏈接性,內外部數據的關聯整合;另一個是真實性,這是傳統數據質量未曾參與或者說積極迴避的事情。真實性實在是難,直接就可以成為數據挖掘、人工智慧的應用案例。內外數據關聯整合已經開始重點關注和解決了,這個過程中數據標準、元數據等傳統數據體系職能範圍自然要有所反應,同時還要考慮的是數據隱私與安全。
綜上,如果你所在的組織已經完成基本的BI系統建設,需要或已經進入大數據應用建議的水平,那麼數據治理的主戰場也應該相應轉移。數據挖掘將會成為數據治理的主戰場,對進軍大數據時代的組織來說有足夠的必要性和緊迫性;同時數據挖掘是未來組織數據驅動文化的核心,這也為數據治理真正發揮作用提供了機遇。
註:文中部分圖片來在互聯網
更多文章和討論見本人的公眾號:
推薦閱讀: