SQL on Hadoop Comparision
02-02
知乎排版功能比較弱,貼個截圖吧。
前三個的架構都比較像,MPP架構的查詢框架,支持互動式查詢,至少是near online;
Hive跟前三者區別較大,Hive是將SQL轉換為MapReduce任務的有向無環圖(DAG),由於map reduce的中間結果存檔,速度是很慢的;
SparkSQL是將SQL轉化為spark內部dataframe/dataset/rdd的DAG圖;spark的優化器是自己用scala寫的,叫catalyst,支持rule base optimization和cost base optimization。
推薦閱讀:
※有什麼好的書籍了解sql執行細節?比如執行計劃之類的。
※請教一下大家,關於 MySQL 百萬數據量的 count(*) 查詢如何優化?
※誰有精簡的SQLSerVer安裝包,聽說有一種只有28M?
※如何自學SQL?
※如何評價cmu-db的peloton資料庫?