SQL on Hadoop Comparision

02-02

知乎排版功能比較弱，貼個截圖吧。

前三個的架構都比較像，MPP架構的查詢框架，支持互動式查詢，至少是near online；

Hive跟前三者區別較大，Hive是將SQL轉換為MapReduce任務的有向無環圖（DAG），由於map reduce的中間結果存檔，速度是很慢的；

SparkSQL是將SQL轉化為spark內部dataframe/dataset/rdd的DAG圖；spark的優化器是自己用scala寫的，叫catalyst，支持rule base optimization和cost base optimization。