數據治理的主戰場,商業智能還是數據挖掘?

一、 什麼是數據治理

先來兩個定義看看,一個是DAMA的,一個是我司數據戰略裡面的:

1、 數據治理是對數據資產的管理行使權力和控制的活動集合(規劃、監控和執行),數據治理職能指導其他數據管理職能如何執行。

2、 數據治理是對數據管理和服務行駛權利和控制的活動集合,在數據管理和服務層面之上進行規劃、監督和控制,數據治理是數據體系得以落實的高階保障。

不論其位置在數據體系的中心,還是在上面宏觀指導著,都可以簡單的概括為這是針對各項管理職能的管理,討論的是組織、角色、制度、流程之類的內容。

數據治理這門學問,入手極易,精通極難。說說經驗吧,數據治理強調兩點,一是高層支持,二是各部門廣泛參與。組織內數據治理各項工作的開展都要處理好這兩個問題,搞定了就能事半功倍。其實這些經驗書里都寫了,不過在數據治理實踐中光看書啥用沒有;還是那句話,入手易精通難。看下面DGI的數據治理框架,寫的很清晰透徹,但每一步怎麼做就能看出本事了。

想要做好數據治理,那要求還是蠻高的,要懂業務、懂數據、懂技術,所謂上能寫制度辦法,下能查數做分析;另外還要懂權衡、懂策略,甚至學學兵法,因為具體工作八成都是跟人有關,些許複雜。要求雖高,但實踐往往要面對無力感和挫敗感兩種不舒服的體驗,只能說還要有合適的性格和心態,不同的人適合不同的崗位了。

二、 商業智能是數據治理的主戰場

商業智能描述了一系列的概念和方法,通過應用基於事實的支持系統來輔助商業決策的制定;商業智能技術提供使企業迅速分析數據的技術和方法,包括收集、管理和分析數據,將這些數據轉化為有用的信息,然後分發到企業各處(Gartner定義)。

不談定義,從上面圖片中能看到數據採集、加工、整合、應用的生命周期,以及數據標準、數據質量、數據架構、元數據這些職能域,還有數據開發、數據分析、業務指標體系等等應用視角的內容。在dmbok中商業智能與數據倉庫放在一起,數據倉庫是矛盾集中的焦點,上游是組織內各個業務源系統,下游支持廣泛的數據應用。

數據是流行的資產,需要跨系統、跨業務條線的綜合治理,需要有機構統籌規劃與決策、協調與推進。企業管理數據資產,就是管理數據的生命周期。數據先被創建或獲得,然後存儲、維護和使用,最終被銷毀。有效的數據管理,數據的生命周期開始於數據獲取之前,企業先期制定數據規劃、定義數據規範,以期獲得實現數據採集、交付、存儲和控制所需的技術能力。

無論專業角度還是實踐角度,商業智能都是數據治理的主戰場,在組織內干係人眾多,影響範圍深遠。當然,如果你所在的組織已經完成基本的BI系統建設,需要或已經進入大數據應用建議的水平,那麼數據治理的主戰場就該轉移了。

三、 數據驅動與數據分析

數據時代,尤其是大數據時代,各種名詞概念層出不窮。這裡面討論下商業智能、數據分析、數據挖掘、數據驅動,這些名詞出現在不同時期,有不同的背景或場景,不在贅述。

概念雖然帶來困惑,但其實又無妨,對組織來說關心的是數據價值的實現,組織應該具備的是認同數據的意義和價值,也就是數據之道。從這裡看,數據驅動其實更多是一種文化,建立對應的數據價值體系,涵蓋數據採集、報告、分析、行動到價值實現的完整流程。增長黑客和AARRR海盜法則這些更適合初創公司,有完整的流程和指標體系可以參考。對於傳統行業來說,主要的困難在於無法真正建立這種數據驅動文化,分開來各項活動都在開展,但在整體上難以形成順暢的流程。當然,這也是我們努力的目標,至少可以先從數據治理和數據應用的層面做好準備。

聊完數據驅動,說說數據分析,這也需要特彆強調和澄清的概念。在我的理解和認知中,商業智能和數據挖掘都是數據分析的手段和方法,當然換個角度來看也可以把商業智能放到最後。然而不談理論和概念,從實際情況看目前商業智能與it系統關聯密切,而數據分析涵蓋的範圍則更廣,所以我更傾向於把商業智能和數據挖掘看做是數據分析的手段和方法。

四、 數據挖掘是數據治理未來的主戰場

下面要說說數據挖掘了,數據挖掘又稱為資料庫中知識發現(KDD),它是一個從大量數據中抽取挖掘出未知的、有價值的模式或規律等知識的過程。廣義的數據挖掘是指知識發現的全過程,狹義的數據挖掘是指統計分析、機器學習等發現數據模式的智能方法,即偏重於模型和演算法。

實際中我們的工作屬於廣義的數據挖掘,組織對於數據應用的需求也逐步從描述階段進入到挖掘階段。尤其是大數據時代,數據挖掘是大數據王冠上的明珠,甚至有人認為大數據僅僅是數據挖掘的另外一個名稱。數據挖掘涉及數據來源、干係人範圍可以超出組織層面,對於數據治理活動來說可以順利接棒商業智能成為主戰場,同時也對數據治理提出了更高的需求。

現在討論大數據下的數據挖掘,應該和場景關聯起來思考問題,因為數據質量和業務需求、技術方案密切相關。場景本身就是需要數據治理需要考慮的問題,以及對應的流程機制都需要進行規劃。

數據挖掘直接關心的是數據質量,而數據質量是人與人矛盾分歧最大的職能域,所以通常也配置全套的數據治理手段。細節不多談,現在討論大數據下的數據挖掘,應該和場景關聯起來思考問題,因為數據質量和業務需求、技術方案密切相關。大數據背景下數據質量的屬性擴展了,一個是可鏈接性,內外部數據的關聯整合;另一個是真實性,這是傳統數據質量未曾參與或者說積極迴避的事情。真實性實在是難,直接就可以成為數據挖掘、人工智慧的應用案例。內外數據關聯整合已經開始重點關注和解決了,這個過程中數據標準、元數據等傳統數據體系職能範圍自然要有所反應,同時還要考慮的是數據隱私與安全。

綜上,如果你所在的組織已經完成基本的BI系統建設,需要或已經進入大數據應用建議的水平,那麼數據治理的主戰場也應該相應轉移。數據挖掘將會成為數據治理的主戰場,對進軍大數據時代的組織來說有足夠的必要性和緊迫性;同時數據挖掘是未來組織數據驅動文化的核心,這也為數據治理真正發揮作用提供了機遇。

註:文中部分圖片來在互聯網

更多文章和討論見本人的公眾號:


推薦閱讀:

免費申請 | 2000冊《數據實踐之美》等你拿
專欄導讀
Pandas | 表格整合三大神技之CONCATENATE

TAG:大数据 | 数据挖掘 | 数据管理平台DMP |