Hadoop生態圈技術

06-07

Hadoop生態圈技術

hadoop生態圈：

1.hdfs：Hadoop分散式文件系統，用來解決機器群存儲數據的問題

2.MapReduce：第一代Hadoop計算引擎，分為map和reduce兩步操作，很好用，但是很笨重。

3.spark：第二代計算引擎，讓map和reduce的界限更模糊，更少的磁碟讀寫

4.pig：上述計算引擎的MapReduce程序寫起來很費勁，類比於彙編語言，pig是接近腳本的方式去描述

5.hive：hive用sql的方式來描述。將sql語言翻譯成MapReduce程序。

6.Tez與spark：新一代計算引擎，能解決中低速數據處理的要求。

7.storm：流計算平台。數據一邊流，一邊統計。

8.zookeeper：分布存取協同系統

9.yarn：中央管理調度系統