Apache kylin 介紹篇

1.Apache kylin是什麼。

Apache kylin是一個開源的分散式分析引擎。它通過ANSI-SQL介面,提供基於hadoop的超大數據集(TB-PB級)的多維分析(OLAP)功能。

只需三步,kylin即可實現超大數據集上的亞秒級(sub-second latency)查詢。

  1. 確定hadoop上一個星型模式(wiki:Star schema)的數據集。
  2. 構建數據立方體(wiki:Data cube)。
  3. 可通過ODBC, JDBC,RESTful API等介面在亞秒級的延遲內查詢相關數據。

2.為什麼引入kylin。

  1. 由於數據是基於hadoop分散式存儲,所以比mysql的伸縮性好。
  2. 提供hadoop上超大數據規模( 百億行級別的數據)的亞秒級(sub-second latency)SQL查詢,相對於hive的離線分析,可做到實時查詢。

  3. 可無縫整合其他BI工具,如Tableau, PowerBI,Excel。

3.Apache kylin 生態系統。

  • Apache Kylin核心:Kylin的OALP 引擎由元數據引擎、查詢引擎、任務引擎、存儲引擎組成。另外,它還有一個rest 伺服器對外提供查詢請求的服務。
  • 可擴展性:提供插件機制支持額外的特性和功能。
  • 與其他系統的整合:可整合任務調度器,ETL工具、監控及告警系統。
  • 驅動包(Drivers):提供ODBC、JDBC驅動支持與其他工具(如Tableau)的整合。

參考文檔:

[1].Apache kylin官網

[2].wiki:Star schema

[3].wiki:Data cube

推薦閱讀:

大數據那些事(28):卡夫卡們的故事
技術分享丨HDFS 入門
大數據那些事(12):Michael,Daniel和輪子
Spark 2017 歐洲技術峰會摘要(人工智慧)
穩定和性能如何兼顧?58大數據平台的技術演進與實踐

TAG:大数据分析 | Hadoop |