從頭學習大數據培訓課程 hadoop,mapreducer 分散式計算框架(三) Windows 開發 wordcount

1. 需要的軟體

2. 解壓eclipse

3. 解壓maven

4. 修改maven配置使用阿里提供的maven源

5. eclipse使用的java版本

6. eclipse配置maven

修改maven配置

7. eclipse配置代碼模板

8. eclipse設置字體大小

9. eclipse安裝插件

ExploreFS的安裝地址:

在線安裝:junginger.biz/eclipse/

重啟ECLIPSE

eclipseFS使用方法

Eclipse正則表達式插件 Regex Util

插件安裝

把下載的插件放到eclipse目錄下的plugins文件夾里

之後重啟eclipse

10. 創建wordcount maven項目

11. 檢查項目使用的jdk

12. 通過maven增加hadoop-client

查看build path裡面maven已經下載的hadoop依賴包

13. 包結構

創建包結構的本地文件目錄

14. 寫mapreducer的順序

繼承Mapper類,實現map函數

繼承Reducer類,實現reduce函數

設置Job相關信息

提交Job運行

15. 創建wordcount類繼承configured,實現tool介面

16. 實現mapper內部類

17. 實現reducer內部類

18. 設置Job相關信息

19. 提交job運行

20. 增加自動刪除目錄方法

21. 配置輸入輸出路徑,並把測試數據放到輸入/tmp/input目錄里

22. 運行任務查看任務結果

23. 增加job日誌

新建resource源碼目錄

拷貝hadoop配置下的log4j文件到新建的resource源碼文件目錄里

這樣運行就會列印出log4j日誌

更多學習資料:海牛大數據社區

推薦閱讀:

大咖熱議,大數據把脈,論網劇大風口的機遇與挑戰
數據分享讀書系列篇:《大數據時代》R凸凸d
Ray的數據新聞學習日記(一):什麼是數據新聞
大數據是不是侵犯隱私?
如何合理搭建大數據分析團隊?需要有哪些背景的人?

TAG:大数据 | 大数据时代 | Hadoop |