Spark Streaming有沒有計劃引入Flink 那種真正的流式處理？

02-07

來補充目前的mini-batch? 不知道各位有沒有內部消息？

目前在Apache Spark 2.2里的Structured Streaming仍然是以micro-batch方式來實現流式處理的。即便如此，它在高吞吐量的前提下已經可以做到頗低的延遲（基於Apache Spark 2.2的Databricks Runtime 3.0可以做到50ms-100ms級別）。

而Structured Streaming的API自身並沒有任何地方說一定要用micro-batch方式來實現其功能；batching只是個當前的實現細節。下一個版本的Spark將會有「連續處理」模式（continuous processing），允許用戶選擇使用徹底不batch的模式來連續處理流輸入的數據。

請參考鄙司的博客文章以及Spark Summit 2017上的相關演講：

Spark Summit 2017演講1：Easy, Scalable, Fault-Tolerant Stream Processing with Structured Streaming in Apache Spark
Spark Summit 2017演講2：Easy, Scalable, Fault-Tolerant Stream Processing with Structured Streaming in Apache Spark (continues)

SPARK-20928: Continuous Processing Mode for Structured Streaming