「數據湖」中數據管理的4種方式
「數據湖」相當於一個中心位置來存儲你所有的數據,它無需考慮數據來源和格式。它通常是用『Hadoop』來建立。數據可以是結構化的或者非結構化的。你可以使用大量的存儲,分析和處理工具快速提取數據的價值來做出重要的組織決策。
因為所有的數據都是受歡迎的,對於傳統的企業數據倉庫來說,『數據湖』算得上是一個功能強大的替代品或補充品。另外,隨著更多的企業向基於雲服務的應用開發和物聯網轉型,『數據湖』也是一個主要的選擇。
在早期的使用案例中,企業頻繁的將數據裝載到「數據湖」而不嘗試去管理它。隨著『數據湖』越來越成熟而且對企業來說更具戰略意義,僅僅將數據裝載到「數據湖」已經不再足夠了而是需要做更好的打算。
「數據湖」具有靈活性,可擴展性,低成本性三個特徵。並且它還具有傳統的數據倉庫(EDW)的大部分特徵,當你要增加數據管理和支配能力,如:數據質量,元數據管理,安全,轉換和拆分與組合數據的能力。如果正確的管理「數據湖」,它可以改進你現在的數據管理措施並且能啟用新的數據管理措施。建立「數據湖」的時候,你的公司可以選擇下列4種方式中的一種:
選擇1:延後支配
第一種選擇在載入數據到數據湖的時候就忽略數據的支配和管理。然而,當你需要篩選出數據中有用的部分的時候,你將不得不用工具來清理這些數據,例如機器學習技術。然而這種方法是真正存在風險的,即使是最智能的推理引擎也需要從『數據湖』大量的數據中的某個地方開始,不可避免的就是在『數據湖』中部分數據將被忽略,變得滯後,孤立,並且其中的數據幾乎不具有結構化,即使是最智能的自動化工具或者人工分析,都不知道從什麼地方開始。
選擇2:適應已經存在的遺留工具
你可以利用最初為數據倉庫設計的應用和過程。當你準備導入數據到數據倉庫時你可以用軟體工具來執行ETL過程。你可以用這些工具來導出數據到數據湖,然而那樣做代價很高,而且只能解決部分你所需要的管理和支配功能。另外一個缺點就是ELT是不包含在在Hadoop集群內的,那樣會減慢操作速度和增加消耗,因為每次查詢都必須將數據從集群中移除。
選擇3:編寫定製腳本
在第三種選擇中,你用定製腳本創建了一個工作流來連接進程,應用,質量檢查和數據轉換從而來滿足管理的需要。這是一個很常見的選擇但是最不可靠和最耗資源的。你需要在Hadoop和它的生態系統方面有很強的分析能力從而來利用開源工具,而且他們需要編寫腳本來把各部分連接起來。隨著你必須不斷修改複雜的代碼和工作流來更新『數據湖』,這個過程是很費時間和資源的。
選擇4:配置一個完整的「數據湖」管理平台
第四個選擇是配置一個用來汲取和管理大量不同的數據的「數據湖」管理平台。 Zaloni』s Bedrock 提供了這項功能。他允許你為數據編排目錄,利用元數據並且支持正在進行中的以確保數據質量,數據沿襲和自動化工作流的進程。這種方法是解決「數據湖」管理和支配的最佳辦法。
當你向「數據湖」轉變的時候,選擇一個完全整合的數據湖管理平台將會使你對數據充滿信心,並且會合併更多的用戶和用戶案例使之有益於商業。歸根結底,這就是數據存在的意義,用來告知和提高組織的決策過程,用嶄新的並且激動人心的方式來幫助您的業務增長。
本文由數據分析網 – 朱彥縉翻譯!歡迎加入翻譯組。
朱彥縉:外企工作,愛好大數據。
推薦閱讀:
※盤點 | 2017 最「熱」門的十大數據技術
※Data Structures公開課聽課筆記--序
※用數據找知己:驀然回首 那人卻在三十五萬用戶中
※從Excel到簡道雲,跳出傳統數據管理思維
※世界頂尖數據科學家忠告:別再被虛榮指標欺騙了!
TAG:数据 |