SQL on Hadoop Comparision

知乎排版功能比較弱,貼個截圖吧。

前三個的架構都比較像,MPP架構的查詢框架,支持互動式查詢,至少是near online;

Hive跟前三者區別較大,Hive是將SQL轉換為MapReduce任務的有向無環圖(DAG),由於map reduce的中間結果存檔,速度是很慢的;

SparkSQL是將SQL轉化為spark內部dataframe/dataset/rdd的DAG圖;spark的優化器是自己用scala寫的,叫catalyst,支持rule base optimization和cost base optimization。

推薦閱讀:

有什麼好的書籍了解sql執行細節?比如執行計劃之類的。
請教一下大家,關於 MySQL 百萬數據量的 count(*) 查詢如何優化?
誰有精簡的SQLSerVer安裝包,聽說有一種只有28M?
如何自學SQL?
如何評價cmu-db的peloton資料庫?

TAG:Hadoop | 大数据 | SQL |