從頭學習大數據培訓課程 hadoop 分散式計算框架(十一)mapreducer 編程,任務工作鏈高級運行方法
02-04
1. 項目工具類
項目的工具類要統一放到util中,命名方式要以Util結尾,這樣別人看到類名就知道這是一個通用的工具類
編寫通用判斷為空工具類
2. 定義任務工作鏈運行返回結果,並封裝成通用對象
該類包含運行結果
運行時間任務鏈中所有任務對應的counters3. 自定義任務工作鏈提交方法
使用java並發庫阻塞隊列的方法控制任務的結束
使用方法
4. 集群運行
修改job改成繼承baseMR基類
梳理任務依賴關係配置好job依賴關係
註冊到driver類中
然後導出jar包
上傳到操作機
使用輸入地址
/user/hainiu/data/input wordCount使用/user/hainiu/data/input2 分組排序使用在操作機上提交任務
可以看到所有任務根據依賴關係運行起來了
操作機列印日誌,可以看到任務運行成功,運行時間為9分26秒
觀察結果,每個任務都生成了數據
大數據視頻學習資料:海牛大數據社區
推薦閱讀:
※大數據那些事(29):從Spark到Spark
※Kafka 2017技術峰會摘要(pipeline分類)
※Apache kylin進階——Slow Query SQL改造篇
※Azkaban集群安裝
※為什麼(hadoop基準測試中)HDFS寫入速度如此之慢?