標籤:

Hive On Spark/Tez項目目前進展如何?

Apache Hive項目下有spark、tez的分支,不知Hive On Spark/Tez項目目前進展如何,何時Release,國內哪些公司有這方面的實踐?


有幸參與了Hive on Spark的開發工作,所以可以分享一些更詳細的信息。

關於Hive on Tez:

Tez是由Hortonworks公司發起的一個分散式計算框架項目,希望能夠取代Map Reduce作為Hadoop生態系統下一代的分散式計算引擎。Hive on Tez作為Hortonworks stinger(Hortonworks改進Hive的項目代號)的一部分,已經在Hive 0.13版本(於2014年4月21號發布)中支持。

關於Hive on Spark:

Spark是由Berkeley AMPLab啟動的一個大數據處理引擎,其包括一個基礎的分散式計算框架Spark core,以及基於此分散式計算框架之上針對不同數據處理領域更高抽象層次的分析框架,如針對結構化數據處理的SparkSQL,針對機器學習的MLlib等。Hive on Spark希望支持Spark作為Hive的下一個計算引擎,這個項目於2014年6月份由Cloudera發起,主要由Intel,MapR等公司共同參與其中。Hive on Spark在Hive 1.1.0版本(於2015年4月8號發布)中beta release,所有的Hive功能都已完備支持,之後一直在進行性能優化方面的工作,預計在下一個Hive版本(Hive 1.3.0)中可能會GA release。最新代碼基於TPC-DS BenchMark的測試結果,和Hive on Tez的性能十分接近。

下面這個鏈接是同事發表在CSDN的一篇文章,詳細介紹了Hive on Spark項目的技術細節,如有興趣,可移步閱讀。Intel李銳:Hive on Spark解析-CSDN.NET

此外,我也在Hadoop Summit 2015 San Jose會議上介紹了Hive on Spark最新的性能數據,會議網址:Hadoop Summit, San Jose, 稍後會議組織方應該會分享slides和錄製視頻,如有興趣,可以多加關注。


hive on tez是很早就開始的了。所謂的新hive或者stinger項目就是hive on tez。現在官方hive是同時支持tez和mapreduce的,只是tez用的人太少,而且hive本身就已經支持tez很久所以大概很少單獨聽到說hive on tez。

至於hive on spark,intel和cloudera主導下正在進行,15年四月hadoop峰會的時候狀態是基本上所有已有功能都遷移完畢但是還在調優,需要幾個月才能正式發布的感覺。不過已經有可以跑著玩的版本了。

相信很少會有人專門為了hive去選擇用tez或者spark,一般都是選了tez或者spark再考慮別的。如果用了tez,hive 是最合理選擇,這是官配。選了spark暫時你只有sparksql可選擇。但如果僅僅是sql交互分析,你也可以考慮presto impala和drill而無視tez或spark。


從我目前的測試結果上來看,基於yarn的sparkSql相比tez並不具備性能優勢。


先用spark sql了,spark包含了tez dag思想


推薦閱讀:

還有必要學習Hadoop 么?
如何看待類似Spark亞太研究院的王家林打著開源旗號賺錢的行為?
如何利用spark快速計算笛卡爾積?
Spark比Hadoop的優勢有這麼大嗎?

TAG:Hive | Spark |