"資料庫" vs. "數據倉庫": 區別與聯繫

(本文約500字,預計閱讀時間1-2分鐘)

在大數據時代,數據倉庫(data warehouse) 是很常見的概念。但它和資料庫(database)的關係是什麼?筆者閱讀了一些相關資料,小結如下。還請高手多指正:

1.前者偏重數據的業務處理(transaction),後者著重於分析,可能會重點面向某個行業;所以資料庫一般和OLTP(Online transaction processing)相聯繫,數據倉庫一般和OLAP(Online analytical processing)相聯繫。

2.所以數據倉庫又被稱為「分析型資料庫」(相對於「業務型資料庫「而言)。它的數據結構有利於查詢和分析的便利。資料庫常採用行式存儲,而數據倉庫常採用列式存儲。

3.前者的用戶數量大(主要是業務人員),既要執行「讀」操作也要執行「寫」操作,每次寫的量不大,但是對時間不敏感。/ 後者的用戶數量小(主要是決策人員),一般只需要執行讀操作,每次讀取的數據量很大,對反應時間不那麼敏感。

4.把所需要的數據從業務型資料庫導入分析型數據倉庫的過程,稱為ETL(Extract-Transform-Load,「抽取-轉換-載入」)。

5.有人認為:數據倉庫是一種結構體系,而資料庫是一種具體技術。

6.資料庫用到的工具主要有MySQL, Oracle, MS SQLServer等,數據倉庫用到的工具主要有Hive, AWSRedshift, Green Plum, SAP HANA等。

數據從業者技能路線圖

順便想到OReilly推薦的「數據從業者技能路線圖」:在上表中,每一行都是一種可能的數據技能發展路徑。如果你已經學了某種技能,你可以按照箭頭順序繼續學習下一種技能。

參考資料:

  1. 資料庫與數據倉庫的本質區別是什麼?》- 知乎.
  2. JohnKing & Roger Magoulas,《2016 Data Science Salary Survey》 - OReilly.

歡迎掃碼關注我的微信公眾號「智慧的流動」:

weixin.qq.com/r/eEUCGjz (二維碼自動識別)

推薦閱讀:

4· 數據時代|用數據說話!年輕人對視頻網站到底意味著什麼?
驚呆了!顏值爆表的20+位阿里技術女神同一時間向你發出共事邀請!
用Apache Spark進行大數據處理——第一部分:入門介紹
歡迎收藏丨6個免費數據源網站
國際視野下的大數據政策與個人信息保護

TAG:資料庫 | 數據倉庫 | 大數據 |