從頭學習大數據培訓課程 spark 基於內存的分散式計算框架(八)Spark 的 updateStateByKey...

1.updateStateByKey

代碼:

結果:

2.windows

修改代碼:

原理結果:

3.streaming用checkpoint恢復歷史數據

從結果看出可以恢復歷史數據

注意事項:

重新編譯之後在checkpoint里找不到

放在外面時會與要恢復的streaming環境產生衝突,所以初始化失敗

4.updateStateByKey只使用最近更新的值

數據對象

代碼:

結果:

5.SparkStreamingFile

監控目錄的文件並讀入,目錄進入新文件時必須保證原子性

代碼:

結果:

版權聲明:原創作品,允許轉載,轉載時務必以超鏈接的形式表明出處和作者信息。否則將追究法律責任。來自海牛學院-青牛


推薦閱讀:

Rust 重構 Spark 框架需要做哪些準備工作?
大數據進階,你現在處於哪些階段
矽谷之路34:深入淺出Spark(一)什麼是Spark
pagerank的概念和spark實現
Spark 為什麼 不允許 RDD 嵌套(如 RDD[RDD[T]])?

TAG:Spark | 大數據 | 大數據分析 |