Kafka 安裝及快速入門

02-02

介紹

官網：http://kafka.apache.org/

Apache Kafka是分散式發布-訂閱消息系統。它最初由LinkedIn公司開發，之後成為Apache項目的一部分。Kafka是一種快速、可擴展的、設計內在就是分散式的，分區的和可複製的提交日誌服務。

Apache Kafka與傳統消息系統相比，有以下不同：

它被設計為一個分散式系統，易於向外擴展；
它同時為發布和訂閱提供高吞吐量；
它支持多訂閱者，當失敗時能自動平衡消費者；
它將消息持久化到磁碟，因此可用於批量消費，例如ETL，以及實時應用程序。

安裝 kafka

下載地址：https://kafka.apache.org/downloads

wget http://mirrors.shuosc.org/apache/kafka/1.0.0/kafka_2.11-1.0.0.tgzn

解壓：

tar -zxvf kafka_2.11-1.0.0.tgzncd /usr/local/kafka_2.11-1.0.0/n

修改 kafka-server 的配置文件

vim /usr/local/kafka/config/server.propertiesn

修改其中的：

broker.id=1nlog.dir=/data/kafka/logs-1n

功能驗證：

1、啟動 ZK

使用安裝包中的腳本啟動單節點 Zookeeper 實例：

bin/zookeeper-server-start.sh -daemon config/zookeeper.propertiesn

2、啟動KAFKA 服務

使用 kafka-server-start.sh 啟動 kafka 服務：

bin/kafka-server-start.sh config/server.propertiesn

3、創建 TOPIC

使用 kafka-topics.sh 創建單分區單副本的 topic test：

bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic testn

查看 topic 列表：

bin/kafka-topics.sh --list --zookeeper localhost:2181n

查詢創建的 topic 列表報錯：

解決方法:

vim /etc/hostsn

將 host 里的

127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4n::1 localhost localhost.localdomain localhost6 localhost6.localdomain6n

修改為：

127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4n::1 ip6-localhost ip6-localhost.localdomain localhost6 localhost6.localdomain6n

方法參考：zookeeper unable to open socket to localhost/0:0:0:0:0:0:0:1:2181

再次查詢就不報錯了。

4、產生消息

使用 kafka-console-producer.sh 發送消息：

bin/kafka-console-producer.sh --broker-list localhost:9092 --topic testn

5、消費消息

使用 kafka-console-consumer.sh 接收消息並在終端列印：

bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test --from-beginningn

打開個新的命令窗口執行上面命令即可查看信息：

6、查看描述 TOPICS 信息

bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic testn

結果：

Topic:testtPartitionCount:1tReplicationFactor:1tConfigs:ntTopic: testtPartition: 0tLeader: 1tReplicas: 1tIsr: 1n

第一行給出了所有分區的摘要，每個附加行給出了關於一個分區的信息。由於我們只有一個分區，所以只有一行。

「Leader」: 是負責給定分區的所有讀取和寫入的節點。每個節點將成為分區隨機選擇部分的領導者。

「Replicas」: 是複製此分區日誌的節點列表，無論它們是否是領導者，或者即使他們當前處於活動狀態。

「Isr」: 是一組「同步」副本。這是複製品列表的子集，當前活著並被引導到領導者。

集群配置

Kafka 支持兩種模式的集群搭建：可以在單機上運行多個 broker 實例來實現集群，也可在多台機器上搭建集群，下面介紹下如何實現單機多 broker 實例集群，其實很簡單，只需要如下配置即可。

單機多BROKER 集群配置

利用單節點部署多個 broker。不同的 broker 設置不同的 id，監聽埠及日誌目錄。例如：

cp config/server.properties config/server-2.propertiesncp config/server.properties config/server-3.propertiesnvim config/server-2.propertiesnvim config/server-3.propertiesn

修改：

broker.id=2nlisteners = PLAINTEXT://your.host.name:9093nlog.dir=/data/kafka/logs-2n

和

broker.id=3nlisteners = PLAINTEXT://your.host.name:9094nlog.dir=/data/kafka/logs-3n

啟動Kafka服務：

bin/kafka-server-start.sh config/server-2.properties &nbin/kafka-server-start.sh config/server-3.properties &n

至此，單機多broker實例的集群配置完畢。

多機多 BROKER 集群配置

分別在多個節點按上述方式安裝 Kafka，配置啟動多個 Zookeeper 實例。

假設三台機器 IP 地址是： 192.168.153.135， 192.168.153.136， 192.168.153.137

分別配置多個機器上的 Kafka 服務，設置不同的 broker id，zookeeper.connect 設置如下:

vim config/server.propertiesn

裡面的 zookeeper.connect

修改為：

zookeeper.connect=192.168.153.135:2181,192.168.153.136:2181,192.168.153.137:2181n

使用 Kafka Connect 來導入/導出數據

從控制台寫入數據並將其寫回控制台是一個方便的起點，但您可能想要使用其他來源的數據或將數據從 Kafka 導出到其他系統。對於許多系統，您可以使用 Kafka Connect 來導入或導出數據，而不必編寫自定義集成代碼。

Kafka Connect 是 Kafka 包含的一個工具，可以將數據導入和導出到 Kafka。它是一個可擴展的工具，運行連接器，實現與外部系統交互的自定義邏輯。在這個快速入門中，我們將看到如何使用簡單的連接器運行 Kafka Connect，這些連接器將數據從文件導入到 Kafka topic，並將數據從 Kafka topic 導出到文件。

首先，我們將通過創建一些種子數據開始測試：

echo -e "zhishengntian" > test.txtn

接下來，我們將啟動兩個以獨立模式運行的連接器，這意味著它們將在單個本地專用進程中運行。我們提供三個配置文件作為參數。首先是 Kafka Connect 過程的配置，包含常見的配置，例如要連接的 Kafka 代理以及數據的序列化格式。其餘的配置文件都指定一個要創建的連接器。這些文件包括唯一的連接器名稱，要實例化的連接器類以及連接器所需的任何其他配置。

bin/connect-standalone.sh config/connect-standalone.properties config/connect-file-source.properties config/connect-file-sink.propertiesn

Kafka 附帶的這些示例配置文件使用您之前啟動的默認本地群集配置，並創建兩個連接器：第一個是源連接器，用於讀取輸入文件中的行，並將每個連接生成為 Kafka topic，第二個為連接器它從 Kafka topic 讀取消息，並在輸出文件中產生每行消息。

在啟動過程中，您會看到一些日誌消息，其中一些指示連接器正在實例化。Kafka Connect 進程啟動後，源連接器應該開始讀取 test.txt topic connect-test，並將其生成 topic ，並且接收器連接器應該開始讀取 topic 中的消息 connect-test 並將其寫入文件 test.sink.txt。我們可以通過檢查輸出文件的內容來驗證通過整個管道傳輸的數據：

數據存儲在 Kafka topic 中 connect-test，因此我們也可以運行控制台使用者來查看 topic 中的數據

bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic connect-test --from-beginningn

連接器繼續處理數據，所以我們可以將數據添加到文件中，並看到它在管道中移動：

echo zhishengtian>> test.txtnecho zhishengtian2>> test.txtnecho zhishengtian3>> test.txtnecho zhishengtian4>> test.txtn

使用 Kafka 流來處理數據

Kafka Streams 是用於構建關鍵任務實時應用程序和微服務的客戶端庫，輸入和/或輸出數據存儲在 Kafka 集群中。Kafka Streams 結合了在客戶端編寫和部署標準 Java 和 Scala 應用程序的簡單性以及 Kafka 伺服器端集群技術的優勢，使這些應用程序具有高度可伸縮性，彈性，容錯性，分散式等特性。

可參考官網入門案例：http://kafka.apache.org/10/documentation/streams/quickstart

參考

1、在CentOS 7上安裝Kafka

2、http://kafka.apache.org/10/documentation/streams/quickstart

關注我

http://weixin.qq.com/r/5UTh_bzEGOFnrfia9xH3 (二維碼自動識別)

作者：zhisheng
鏈接：Kafka 安裝及快速入門

聲明：本文來源於極樂科技簽約博主：zhisheng，版權歸作者所有，轉載請註明作者與出處，謝謝！