Spark Streaming有沒有計劃引入Flink 那種真正的流式處理?
02-07
來補充目前的mini-batch? 不知道各位有沒有內部消息?
目前在Apache Spark 2.2里的Structured Streaming仍然是以micro-batch方式來實現流式處理的。即便如此,它在高吞吐量的前提下已經可以做到頗低的延遲(基於Apache Spark 2.2的Databricks Runtime 3.0可以做到50ms-100ms級別)。
而Structured Streaming的API自身並沒有任何地方說一定要用micro-batch方式來實現其功能;batching只是個當前的實現細節。下一個版本的Spark將會有「連續處理」模式(continuous processing),允許用戶選擇使用徹底不batch的模式來連續處理流輸入的數據。
請參考鄙司的博客文章以及Spark Summit 2017上的相關演講:
- Making Apache Spark the Fastest Open Source Streaming Engine - The Databricks Blog
- Spark Summit 2017演講1:Easy, Scalable, Fault-Tolerant Stream Processing with Structured Streaming in Apache Spark
- Spark Summit 2017演講2:Easy, Scalable, Fault-Tolerant Stream Processing with Structured Streaming in Apache Spark (continues)
SPARK-20928: Continuous Processing Mode for Structured Streaming
推薦閱讀:
※Spark 2017歐洲技術峰會摘要(開發人員分類)
※Hadoop、spark、SaaS、PaaS、IaaS、雲計算概念區分?
※如何用spark做矩陣計算?
※Spark 2017歐洲技術峰會摘要(Spark 生態體系分類)
TAG:Spark |