標籤:

數據、資料庫、數據倉庫

剛轉行到大數據這一行業,做的運維崗位,這個崗位需要的知識面很廣。而我很多都沒接觸過,基本等於從0開始,從最開始的跟著做到自己會做還需要一段時間,所以在此記錄下我的學習過程。

什麼是數據,什麼是資料庫?

Data,數據其實就是數、文字、字元,符號,或影像、聲音。我們這裡通常泛指的是可以被收集,處理的,可能有價值的數據。數據是新石油嘛(Data Is the New Oil)。既然有價值,我們可以把它們比喻做貨品,蔬果,奶粉,手機。而你是老闆(數據持有者/用戶),要拿這些貨品起家做生意(獲取數據價值)。

Database,資料庫就是裝載這些電子化數據的「貨櫃」,通常這樣的貨櫃會有個管理系統,以便幫助你查找,裝載,卸除,整理你所持有的貨品(數據)。對於蔬果和啤酒來說,他們是新鮮快消品,來去快,那麼這個容櫃可以是農場或釀酒廠里的大冰櫃,成品,半成品(原始數據),都先擺大冰櫃凍起來(OLTP 交易型資料庫)。出貨用的貨櫃可以是一般的貨箱(OLAP 分析型資料庫),對它操作頻率相對不那麼高,功能上也不那麼多要求。不需冷藏功能,能擺的下出貨的批量其實就夠了(OLAP 在某些特性像存儲讀寫/實時監測上的要求也許不高)。

什麼是數據倉庫,什麼是數據集市?

好吧,現在你發家了,有了點小資本,以前你是批發商,一直是一兩個櫃拿貨、出貨(直接使用資料庫就夠),甚至直接調貨給零售商(終端用戶)。現在你想進更多的貨,考慮自己做做小加工和零售。是時候要整一塊大地兒,有規模的定製好一些貨架,來擺放盤點你這麼多的貨品了(大數據)。

Data Warehouse / EDW,數據倉庫,就是很大、預算充足的一個再加工倉儲空間。可以集中,統一,整齊一致擺放來自於各類容櫃的貨品,分門別類上貨架,並突出它們相關的時間標籤,以便作為老闆的你可以隨時調出貨品何時上架何時更改(歷史數據),看看下次該採購什麼貨,多少貨(做企業決策)。

調出到哪裡呢?你聘有這麼一批專員(BI分析員),幫你對接你的零售商客戶。餐飲業客戶希望調一些最新最炫的酒類貨品;母嬰產品零售想跟你調幾批新舊款尿片試做比較;超市啤酒和尿片都要,他們要研究兩者有什麼關聯,你的客戶還真是多種多樣哦。

我們只好在倉庫外搭起幾個小帳篷 Data Mart(數據集市),再把他們各自所需的貨架(在這裡數據是貨架因為已整理分門別類好了)都調過去小帳篷出貨。要啤酒,要尿片,或是兩樣都要,安照客戶需求統統滿足唄(面向業務主題)。

所以,按照範疇劃分,數據 < 資料庫 < 數據集市(小)/ 數據倉庫(大)。

按照過程,一般的數據是由交易型資料庫轉移至分析型資料庫,清洗整理後在數據倉庫載入,最後轉移至數據集市供用戶使用:

貨品在供貨商的大冰櫃轉到貨箱,在倉庫清結整理加工上架,最後將貨架調至集市供給零售商。

什麼是 ETL?

Extract-Transform-Load,抽取-轉換-載入。貨品越多越需要自動化管理,否則就焦頭爛額了嘛。你看亞馬遜的倉庫,都靠機器人來整理至出貨,效率擺在那,不需要人手就給它自動化。

它是這樣開始的:倉庫門前擺滿了農場送來的滿載了蔬果的貨箱,上個禮拜和今天都有胡蘿蔔到貨,今天還有新到的雪梨,而在倉庫里指定的上架類別是新鮮蔬果汁成品(商業需求)。為了保證品質要來作些篩選取捨,上禮拜的胡蘿蔔過期就不要了,我們只要今天到貨的胡蘿蔔和雪梨(數據的抽取)。

選好了這批貨開箱後,胡蘿蔔和雪梨都擺上傳送帶往倉庫里輸送(數據抽取進程),清潔水洗(數據清洗)和大小分批(粒度篩選),這個過程也會分揀出質量不好的一部分(錯誤/不完整/冗餘數據),接著就被按照批次擺放至倉庫內的一個蔬果待加工儲藏區(ODS)。

因為最終成品是新鮮胡蘿蔔雪梨汁,加工步驟(Staging)開始了:去皮去核打汁(數據轉換),按比例參雜蔬果汁和水(商業需求邏輯),玻璃瓶封起,六支一箱包裝好(數據模型標準),成品入倉上架(數據載入)。

EDW 中,胡蘿蔔和雪梨的 ETL 進程

以上這些倉庫內的自動化處理進程,就叫ETL。待續~


推薦閱讀:

怎麼才能用數據實現商業價值?
「新旅遊」時代,大數據如何成為推動行業前進的核心驅動力|TBO報道
iCloud雲上貴州,2018數博會連接2億多用戶
美國現代藝術博物館的軟數據:111件服裝展品的前世今生
大數據下看打虎

TAG:大數據 |