Apache kylin的基礎運維

一、Apache kylin的基礎環境

由於Apache kylin上的OLAP(wiki:OLAP)是構建在hadoop生態環境上的,所以hadoop環境的穩定性和健壯性對kylin的穩定運行至關重要。一般而言,Apache kylin實例最好部署在hadoop集群的客戶端機器上;而通過hadoop客戶端機器,kylin最好能直接訪問hadoop、hdfs、hive、hbase等命令行腳本;另外,kylin進程實例的所有者,需要具備以下許可權:

  • 讀/寫 hadoop分散式文件系統。
  • 提交MR任務到hadoop集群。
  • 創建/刪除hive表。
  • 創建hbase表。

如下圖:

以下是Apache kylin依賴環境的組件及版本推薦:

  • Hadoop: 2.6 - 2.7

  • Hive: 0.13 - 1.2.1
  • HBase: 0.98 - 0.99, 1.x
  • JDK: 1.7+

二、Apache kylin的安裝部署

安裝:

  1. 下載最近版本的kylin:Apache Kylin,解壓。
  2. 在 ~/.bash_profile 中添加指向解壓後的kylin文件夾的KYLIN_HOME環境變數。
  3. 確保當前用戶能在命令行介面中訪問hadoop, hive , hbase 命令,如果你不確定,可利用$KYLIN_HOME/bin/check-env.sh 驗證。

部署:

一般以集群模式部署kylin,kylin實例進程是無狀態的,kylin實例運行的狀態信息保存在hbase和hdfs中(後面有單獨篇章講元數據)kylin實例有三種運行模式,決定了該實例的職責,如下:

  1. job,該實例作為cube build engine運行。
  2. query, 該實例作為query engine運行。
  3. all,該實例既可作為query engine運行,也可以作為cube build engine 運行。

注意:kylin集群只能有一個實例以 job 或者 all 模式運行 ,其餘所有實例只能作為 query engine運行。一個典型的部署方式如下:

以集群模式部署kylin時,每個kylin伺服器實例的${HOME_KYLIN}/conf/kylin.properties文件中的以下兩個參數需注意:

  1. kylin.rest.servers,提供查詢服務的kylin實例列表,如:kylin.rest.servers=hostname1:7070,hostname2:7070

  2. kylin.server.mode,kylin實例的運行模式,注意,只能有一個實例以 job或者 all 模式運行 ,其餘所有實例只能以 query 模式運行。

三、Apache kylin的基礎運維

  1. 啟動實例

$KYLIN_HOME/bin/kylin.sh start

2.關閉實例

$KYLIN_HOME/bin/kylin.sh stop

後面將單獨分出章節講講Apache kylin的高級運維,敬請期待。


推薦閱讀:

無人機數據收集、存儲以及深度挖掘
穿越夾縫,走向卓越
R語言學習第三章(多圖)

TAG:Hadoop | 大数据分析 | 数据仓库 |