如何成功實現數據治理
如果你處理過大量數據,你也許聽說過「數據治理」一詞,你可能會想,它是什麼?適不適合你?如何實施?簡單來說,數據治理就是處理數據的策略——如何存儲、訪問、驗證、保護和使用數據。數據治理包括制定獲取方案:誰能訪問、使用和共享你的數據。
這些問題正變得越來越重要,因為企業依靠收集、存儲和分析大量數據,來達成業務目標。數據變成了企業的盈利工具、業務媒介和商業機密。數據泄露會導致法律糾紛,還會令消費者對公司的核心業務失去信心。
如果心存僥倖,全憑各個部門自行處理數據,那麼你將缺乏統一管理數據的策略,也許會讓各個部門制定自己的策略。這是無法想像的,就像是缺乏管理實物庫存的策略,允許各個實體部門隨心所欲地生產、儲存和銷售產品一樣。數據使用不當就像庫存使用不當一樣,會給企業造成數百萬美元的損失,因此必須制定策略,使數據具有一致性和安全性,並隨時可用。這些應用於數據領域的策略就構成了數據治理。
數據治理的特點
數據治理策略必須涵蓋數據的整個生命周期,從數據收集一直到數據管護。在這個生命周期中,數據治理必須解決以下問題:
·從哪裡獲取數據以及如何獲取,這是數據生命周期的起點。數據來源決定了數據治理策略的基礎。例如,數據來源所決定的一個重要因素是數據集的大小。是從目標市場、現有客戶和社交媒體收集數據?還是使用外部供應商收集數據或者分析你收集的數據?輸入數據流是什麼?數據治理必須著眼於這些問題,制定策略來管理數據的採集,引導外部供應商處理他們收集的數據或者分析你收集的數據,控制數據的路徑和生命周期。
·驗證數據,尤其是驗證多來源數據,這是一個讓數據管理者十分頭疼的問題。區分重要數據和雜訊數據只是這個問題的開始。如果你是從附屬企業收集數據,你必須確保數據是可靠的。如果你是從社交媒體網站收集數據,在你的策略中,必須有一種驗證重要數據的方法。任何情況下,你都必須確保收集的數據是合法的,並且沒有被篡改——這個問題在並行計算環境中尤其令人擔心,因為並行計算常常被用來收集大量數據,這往往會使用雲服務,故而增加了安全隱患。
·數據治理策略必須解決存儲問題,而存儲方案在很大程度上取決於數據集的大小。以PB計的大數據必須存儲在安全的冗餘系統中,常常利用層次體系,根據使用頻率來提供數據。這樣一來,昂貴的在線系統提供的是被頻繁請求的數據,而請求頻率較低的數據則存儲在不那麼昂貴、可用率較低的系統上。不幸的是,這些優先順序較低的系統也可能安全性較低,從而允許訪問敏感但請求頻率低的數據。因此,在制定數據存儲方案時,良好的數據治理策略必須考慮到方方面面的因素。
·數據治理必須制定訪問控制策略,在需求和安全之間找到平衡。要讓那些需要數據來完成工作的人,可以在必要時無障礙地訪問數據。出於安全原因,他們能夠訪問的數據不應該超出他們的許可權。數據應該在請求合法的前提下,才能被訪問,但出於安全原因,對敏感數據應該加大訪問難度,只向具有特定安全級別的用戶開放。應該對用戶和數據本身設置訪問級別,管理賬戶時,應與人力資源部和採購部緊密互動,這一點非常重要,因為這樣可以及時地使離職員工和停止合作的供應商不再擁有訪問許可權。處理好這些細節以及確保數據所有權和責任,這是構成完整的數據治理策略的一部分。
·使用/共享/分析。數據如何被使用是數據治理策略至關重要的一部分。潛在用途包括,使用數據來管理賬戶,改善客戶體驗,投放定向廣告,提供市場分析,與附屬企業共享數據。必須仔細界定哪些數據可用於共享或者用於營銷,並保護它們免遭攻擊和泄露,因為數據本來就應該被用於純粹的內部用途。要讓客戶知道,收集數據的所有公司都必須遵守數據使用和共享方面的規定。能夠確保數據使用合規,這是擁有數據治理策略的另一個重要好處。
·收集、驗證、存儲、訪問和使用都是安全計劃的必要組成部分,必須有一個全面的策略來解決這些問題以及其他安全問題。安全計劃必須在不禁止用戶使用的情況下發揮作用,但數據生命周期的各個階段都可能因為疏忽大意而遭到攻擊和泄露。對安全的追求必須是支持而不是妨礙必要的使用。數據治理策略必須制定數據安全方案,包括訪問協議、對靜態數據和傳輸中數據進行加密,等等。
·管護/元數據。沒有管護的數據生命周期是不完整的。管護的一個例子是把元數據應用於一個數據,以便識別檢索。元數據包括數據的來源、生成和/或收集的日期、訪問級別信息、語義分類以及企業需要的其他屬性。數據治理能建立一個元數據辭彙表,界定數據的有效期。要記住,數據也會過期,到某個時候,也許只能用於歷史數據分析。
數據治理的組織問題
在創建數據治理的過程中,常常會遭到抵制,因為有些人擔心無法再訪問他們需要的數據,還有些人出於競爭的考慮,向來不願共享他們的數據。數據治理策略必須消除這些擔憂,讓各方面的人都能接受。習慣了數據筒倉環境的公司,可能不太容易適應新的數據治理策略,但如今對大型數據集的依賴以及隨之而來的諸多安全問題,使創建和實施覆蓋全公司的數據策略成為一種必然。數據日益成為企業基礎設施的一部分,在企業一步步處理各種特定情況的過程中,決策就這樣形成了。它以一次性的方式作出,常常是對某一特定問題的回應。因此,企業處理數據的方法會因為不同部門而改變,甚至會因為部門內部的不同情況而改變。即使每個部門已經有一套合理的數據處理方案,但這些方案可能彼此衝突,企業將不得不想辦法調解。弄清數據存儲的要求和需求是一件難事,如果做得不好,就無法發揮數據在營銷和客戶維繫方面的潛力,而如果發生數據泄露,你還要承擔法律責任。另外一個問題是,在一家大公司里,部門之間會爭奪資源,還會展開競爭,讓自己的需求被領導聽取。各部門只需要確保自己的生存能力,無論是盈利業務,還是支持中心,都是如此,因此它們視野狹窄,只注重自身需求,很難在沒有調解的情況下達成妥協。數據治理委員會著眼於現有數據策略、未被滿足的需求以及潛在安全問題等,創建數據治理策略,使數據的採集、管護、儲存、訪問以及使用策略均實現標準化,同時還會考慮各個部門和崗位的不同需求。數據治理委員會還扮演了調解人的角色,平衡那些存在衝突的需求,在安全擔憂與訪問需求之間進行協調,確保最高效、最安全的數據管理策略。
五步實現成功的數據治理
1. 建立一個數據治理組織。數據治理研究所推薦建立一個數據治理委員會,負責評估各個數據用戶的輸入信息,建立覆蓋全公司的數據管理策略,滿足內部用戶、外部用戶甚至法律方面的各種需求。該委員會的成員應該囊括各個業務領域的利益相關者,確保各方需求都得到滿足,所有類型的數據所有權均得到體現。安全專家也應成為委員會的一員。了解數據治理委員會的目標是什麼,這一點很重要,因此,應該思考企業需要數據治理策略的原因,並清楚地加以說明。2. 制定一個框架,將林林總總的數據需求容納其中。這個框架必須確保各個部分被融合成一個整體,滿足收集、存儲、檢索和安全要求。為此,企業必須清楚說明其端到端數據策略,以便設計一個覆蓋所有要求和必要操作的框架。必須有計劃地把各個部分結合起來,彼此支持,這有很多好處,比如在高度安全的環境中執行檢索要求。合規性也需要專門的設計,成為框架的一部分,這樣就可以追蹤和報告監管問題。這個框架還包括日常記錄和其他安全措施,能夠對攻擊發出早期預警。在使用數據前,對其進行驗證,這也是框架的一部分。數據治理委員會應該了解框架的每個部分,明確其用途,以及它如何在數據的整個生命周期中發揮作用。3. 試點數據策略。通常來說,一個策略應該先在小範圍內推行,以便發現計劃、框架和基礎設施的缺陷,然後才在整個公司實行。4. 擁有一個與時俱進的數據治理組織。數據治理委員會應該與時俱進,因為隨著數據治理策略延伸到新的業務領域,肯定需要對策略進行調整。而且,隨著技術的發展,數據策略也應該發展,與安全形勢、數據分析方法以及數據管理工具等保持同步。5. 知道什麼是成功的數據策略。確立成功標準,以便衡量進展。制定數據管理目標,有助於確定成功的重要指標,進而確保數據治理策略朝著你希望和需要的方向前進。
結論
企業無論大小,都面臨著類似的數據挑戰。公司越大,數據越多,而數據越多,就越需要制定有效、正式的數據治理策略。規模較小的企業也許只需要非正式的數據治理策略就能做得很好,但前提是,公司的規模必須要小,而且對數據的依賴度必須要低。即便是非正式的數據治理策略,也必須考慮客戶和員工數據的收集、驗證、訪問以及存儲。當企業規模擴大,數據需求跨越多個部門時,當數據系統和數據集太大,難以駕馭時,當業務發展需要企業級的策略時,或者當法律或監管提出需求時,就必須制定更為正式的數據治理策略。如果你發現,有部門在制定自己的數據管理策略,就是時候了。一旦有足夠多的數據讓你成為黑客的攻擊目標,就是時候了。簡而言之,如果你不得不問「是時候了嗎?」,那麼可以肯定,是時候制定正式的數據治理策略了。
推薦閱讀:
※還在與數據表格鬥毆?這12個數據可視化工具正準備來解放你
※乾貨:大數據挖掘必看的公開數據來源
※「Python」用Cosine Similarity實現相關文章推薦
※2017 CCF ADL會議總結
※Python學習筆記--1