Hadoop生態圈技術
06-07
Hadoop生態圈技術
推薦閱讀:
hadoop生態圈:
1.hdfs:Hadoop分散式文件系統,用來解決機器群存儲數據的問題
2.MapReduce:第一代Hadoop計算引擎,分為map和reduce兩步操作,很好用,但是很笨重。
3.spark:第二代計算引擎,讓map和reduce的界限更模糊,更少的磁碟讀寫
4.pig:上述計算引擎的MapReduce程序寫起來很費勁,類比於彙編語言,pig是接近腳本的方式去描述
5.hive:hive用sql的方式來描述。將sql語言翻譯成MapReduce程序。
6.Tez與spark:新一代計算引擎,能解決中低速數據處理的要求。
7.storm:流計算平台。數據一邊流,一邊統計。
8.zookeeper:分布存取協同系統
9.yarn:中央管理調度系統
推薦閱讀:
※怎麼看hadoop Summit 2015 and Spark summit 2015?
※《Machine Learning:Clustering & Retrieval》課程第3章KMeans之並行化
※生產環境下cloudera的cdh版本更受歡迎,但是貌似cloudera對於YARN的開發力度不是很突出,所以在apache與cdh版本選擇的時候,大家是怎麼考慮的?
※Spark 2017 歐洲技術峰會摘要(人工智慧)
※大數據那些事(26):你還愛我嗎之Stinger的努力
TAG:Hadoop |