kafka-connect和kafka-stream的使用場景?

還沒實際用過,個人理解前者偏向數據源之間導入導出,後者偏向數據運算?

如果以後成熟了,結合這些庫是不是就可以脫離storm,spark這些框架了


Disclaimer:我是Kafka PMC,主要負責Streams項目。

更準確地說,Connect的作用是Kafka與其他數據源之間的導入導出。目前已經支持的數據源可以在這裡找到:Kafka Connect | Confluent

Stream支持的是對存儲在Kafka上的流數據進行實時處理,也就是說數據已經存在Kafka上面了。

所以如果你現在的架構已經近似於:

數據源(比如資料庫,前端Web Server,感測器..)-&> Kafka -&> Storm / Spark -&> 數據接收(比如Elastic,HDFS/HBase,Cassandra,數據倉庫..)

那這個架構是完全可以用Kafka Connect + Kafka Streams,也就是:

數據源 -&> Kafka Connect -&> Kafka -&> Kafka Streams -&> Kafka -&> Kafka Connect -&> 數據接收


推薦閱讀:

TAG:ApacheStorm | 大數據 | Spark | Kafka |