標籤:

Spark Streaming有沒有計劃引入Flink 那種真正的流式處理?

來補充目前的mini-batch? 不知道各位有沒有內部消息?


目前在Apache Spark 2.2里的Structured Streaming仍然是以micro-batch方式來實現流式處理的。即便如此,它在高吞吐量的前提下已經可以做到頗低的延遲(基於Apache Spark 2.2的Databricks Runtime 3.0可以做到50ms-100ms級別)。

而Structured Streaming的API自身並沒有任何地方說一定要用micro-batch方式來實現其功能;batching只是個當前的實現細節。下一個版本的Spark將會有「連續處理」模式(continuous processing),允許用戶選擇使用徹底不batch的模式來連續處理流輸入的數據。

請參考鄙司的博客文章以及Spark Summit 2017上的相關演講:

    Making Apache Spark the Fastest Open Source Streaming Engine - The Databricks Blog

  • Spark Summit 2017演講1:Easy, Scalable, Fault-Tolerant Stream Processing with Structured Streaming in Apache Spark
  • Spark Summit 2017演講2:Easy, Scalable, Fault-Tolerant Stream Processing with Structured Streaming in Apache Spark (continues)
  • SPARK-20928: Continuous Processing Mode for Structured Streaming


推薦閱讀:

Spark 2017歐洲技術峰會摘要(開發人員分類)
Hadoop、spark、SaaS、PaaS、IaaS、雲計算概念區分?
如何用spark做矩陣計算?
Spark 2017歐洲技術峰會摘要(Spark 生態體系分類)

TAG:Spark |