標籤:

Hadoop生態圈技術

Hadoop生態圈技術

hadoop生態圈:

1.hdfs:Hadoop分散式文件系統,用來解決機器群存儲數據的問題

2.MapReduce:第一代Hadoop計算引擎,分為map和reduce兩步操作,很好用,但是很笨重。

3.spark:第二代計算引擎,讓map和reduce的界限更模糊,更少的磁碟讀寫

4.pig:上述計算引擎的MapReduce程序寫起來很費勁,類比於彙編語言,pig是接近腳本的方式去描述

5.hive:hive用sql的方式來描述。將sql語言翻譯成MapReduce程序。

6.Tez與spark:新一代計算引擎,能解決中低速數據處理的要求。

7.storm:流計算平台。數據一邊流,一邊統計。

8.zookeeper:分布存取協同系統

9.yarn:中央管理調度系統


推薦閱讀:

怎麼看hadoop Summit 2015 and Spark summit 2015?
《Machine Learning:Clustering & Retrieval》課程第3章KMeans之並行化
生產環境下cloudera的cdh版本更受歡迎,但是貌似cloudera對於YARN的開發力度不是很突出,所以在apache與cdh版本選擇的時候,大家是怎麼考慮的?
Spark 2017 歐洲技術峰會摘要(人工智慧)
大數據那些事(26):你還愛我嗎之Stinger的努力

TAG:Hadoop |