開源OLAP系統小結

01-29

大數據的聲音雖然沒有前幾年熱鬧，但hadoop生態圈的造輪子腳步一點也沒停下來。最近幾天有空，梳理一下各種OLAP的計算和存儲框架。

Drill Drill是一個純粹的SQL query engine，支持多種data source，例如Hadoop storage， S3-style雲存儲，NoSQL存儲。

主要特點是支持多種的data source（HDFS HBase Mongo S3 kafka openTSDB等等），查詢前不需要etl工具做轉換，跟BI工具集成比較好；
支持SQL compilation，CBO這塊用的calcite，支持data locality aware，predicate 可以下推到store層，如果store層有對應的filter。
架構中比較有特點的兩個地方：

meta data持久化存儲，放在底層存儲引擎中，不像hive還需要一個mysql；
用一個distributed in-memory k/v cache（infinispan，jboss cache的後繼項目）來緩存查詢查詢計劃分片，執行中間結果和統計信息。

首先它沒有自己的存儲引擎，而是依賴於HDFS S3等; native查詢介面是Http+json，SQL介面需要依賴於社區的庫或者Hive；不支持Join。
數據以上卷（roll-up）的方式從外部導入。簡單的說對導入時，根據用戶指定的統計策略，對某些列（維度）的數據做聚合統計，將聚合數據存檔以節省存儲空間。導入有方式，事實和批量；導入時會根據對數據做分片，還可以指定列的索引(索引建在分片上)和壓縮方式
java開發，使用的公司比較多，阿里，netflix，ebay等，有個公司imply提供商業支持。

palo實現了SQL查詢引擎和分散式存儲引擎，不依賴任何hadoop組件
palo的meta data並不依賴於一個單點的metadata storage（例如hive的mysql），而是通過Paxos-like協議做了多點複製，這樣的多個節點可以同時提供查詢能力
sharding策略是先按照某個列做key-range（例如時間戳）切分，然後再按照hash（例如UserID）切分
存儲引擎方面，palo支持ORC或者parquet這種方式的列存
為了支持近實時導入，存儲引擎層實現了MVCC
保存全量數據的同時，支持rollup 物化視圖
簡單的多租戶支持
C++編寫，利用LLVM實現vectorization

clickhouse 俄羅斯yandex開源的一個數倉產品，c++編寫。跟palo或者mesa定位類似，目前官方文檔是俄語的，國內有一些翻譯，有人在嘗試
greenplum 很老的一個MPP DataWareHouse，基於PgSQL內核開發，跟比較傳統的數倉vertica和redshift大致是同一時代的產品。最初被EMC收購，後來轉給pivotal。hadoop上的廉價/免費輪子很多，索性就開源了。

參考

https://en.wikipedia.org/wiki/Apache_Impala

https://www.cloudera.com/documentation/cdh/5-0-x/Impala/Installing-and-Using-Impala/ciiu_concepts.html

https://drill.apache.org/architecture/

https://drill.apache.org/blog/2017/12/15/drill-1.12-released/

https://en.wikipedia.org/wiki/Apache_Drill

https://en.wikipedia.org/wiki/Presto_(SQL_query_engine)

https://en.wikipedia.org/wiki/Apache_Hive

https://cwiki.apache.org/confluence/display/Hive/Vectorized+Query+Execution

https://hortonworks.com/blog/hive-0-14-cost-based-optimizer-cbo-technical-overview/

https://issues.apache.org/jira/browse/SPARK-16060

https://databricks.com/blog/2017/08/31/cost-based-optimizer-in-apache-spark-2-2.html

http://kudu.apache.org/overview.html

https://en.wikipedia.org/wiki/Druid_(open-source_data_store)

http://druid.io/docs/0.11.0/design/index.html

https://hortonworks.com/blog/apache-hive-druid-part-1-3/

https://github.com/baidu/palo

About the Greenplum Architecture

greenplum-db/greenplum-db.github.io