標籤:

從頭學習大數據培訓課程 hadoop 分散式計算框架(十一)mapreducer 編程,任務工作鏈高級運行方法

1. 項目工具類

項目的工具類要統一放到util中,命名方式要以Util結尾,這樣別人看到類名就知道這是一個通用的工具類

編寫通用判斷為空工具類

2. 定義任務工作鏈運行返回結果,並封裝成通用對象

該類包含運行結果

運行時間

任務鏈中所有任務對應的counters

3. 自定義任務工作鏈提交方法

使用java並發庫阻塞隊列的方法控制任務的結束

使用方法

4. 集群運行

修改job改成繼承baseMR基類

梳理任務依賴關係

配置好job依賴關係

註冊到driver類中

然後導出jar包

上傳到操作機

使用輸入地址

/user/hainiu/data/input wordCount使用

/user/hainiu/data/input2 分組排序使用

在操作機上提交任務

可以看到所有任務根據依賴關係運行起來了

操作機列印日誌,可以看到任務運行成功,運行時間為9分26秒

觀察結果,每個任務都生成了數據

大數據視頻學習資料:海牛大數據社區


推薦閱讀:

大數據那些事(29):從Spark到Spark
Kafka 2017技術峰會摘要(pipeline分類)
Apache kylin進階——Slow Query SQL改造篇
Azkaban集群安裝
為什麼(hadoop基準測試中)HDFS寫入速度如此之慢?

TAG:大数据 | Hadoop |