Apache kylin 介紹篇
01-26
1.Apache kylin是什麼。
Apache kylin是一個開源的分散式分析引擎。它通過ANSI-SQL介面,提供基於hadoop的超大數據集(TB-PB級)的多維分析(OLAP)功能。
只需三步,kylin即可實現超大數據集上的亞秒級(sub-second latency)查詢。
- 確定hadoop上一個星型模式(wiki:Star schema)的數據集。
- 構建數據立方體(wiki:Data cube)。
- 可通過ODBC, JDBC,RESTful API等介面在亞秒級的延遲內查詢相關數據。
2.為什麼引入kylin。
- 由於數據是基於hadoop分散式存儲,所以比mysql的伸縮性好。
- 提供hadoop上超大數據規模( 百億行級別的數據)的亞秒級(sub-second latency)SQL查詢,相對於hive的離線分析,可做到實時查詢。
- 可無縫整合其他BI工具,如Tableau, PowerBI,Excel。
3.Apache kylin 生態系統。
- Apache Kylin核心:Kylin的OALP 引擎由元數據引擎、查詢引擎、任務引擎、存儲引擎組成。另外,它還有一個rest 伺服器對外提供查詢請求的服務。
- 可擴展性:提供插件機制支持額外的特性和功能。
- 與其他系統的整合:可整合任務調度器,ETL工具、監控及告警系統。
- 驅動包(Drivers):提供ODBC、JDBC驅動支持與其他工具(如Tableau)的整合。
參考文檔:
[1].Apache kylin官網
[2].wiki:Star schema
[3].wiki:Data cube
推薦閱讀:
※大數據那些事(28):卡夫卡們的故事
※技術分享丨HDFS 入門
※大數據那些事(12):Michael,Daniel和輪子
※Spark 2017 歐洲技術峰會摘要(人工智慧)
※穩定和性能如何兼顧?58大數據平台的技術演進與實踐