標籤：

Spark 大數據大數據分析

從頭學習大數據培訓課程 spark 基於內存的分散式計算框架（八）Spark 的 updateStateByKey...

04-29

1.updateStateByKey

代碼：

結果：

2.windows

修改代碼：

原理結果：

3.streaming用checkpoint恢復歷史數據

從結果看出可以恢復歷史數據

注意事項：

重新編譯之後在checkpoint里找不到

放在外面時會與要恢復的streaming環境產生衝突，所以初始化失敗

4.updateStateByKey只使用最近更新的值

數據對象

代碼：

結果：

5.SparkStreamingFile

監控目錄的文件並讀入，目錄進入新文件時必須保證原子性

代碼：

結果：

版權聲明:原創作品,允許轉載，轉載時務必以超鏈接的形式表明出處和作者信息。否則將追究法律責任。來自海牛學院－青牛

推薦閱讀：

※Rust 重構 Spark 框架需要做哪些準備工作？
※大數據進階，你現在處於哪些階段
※矽谷之路34:深入淺出Spark（一）什麼是Spark
※pagerank的概念和spark實現
※Spark 為什麼不允許 RDD 嵌套（如 RDD[RDD[T]]）？

TAG:Spark | 大數據 | 大數據分析 |