從頭學習大數據培訓課程 hadoop 分散式計算框架(七) mapreducer多目錄輸出、innerjoin 實現

標題:mapreducer 編程,多目錄輸出、innerjoin 實現、多目錄輸入並指定所用 mapper

1. 多目錄輸出

maxout/max

maxout在輸出目錄下新建的文件夾

max輸出文件的前綴

結果

文件前綴

2. innerjoin實現

map實現使用FileSplit inputSplit = (FileSplit) context.getInputSplit();取得輸入文件路徑,用文件路徑判斷是數據那個數據集

reducer實現,實現join的拼接

job配置

輸入數據1

輸入數據2

運算結果

3. 多目錄輸入並指定每個目錄所用的mapper

mappe1r實現

mapper2實現

job配置

reducer實現同第2步

輸入和輸出數據同第2步

更多大數據方向JAVA視頻教程:海牛大數據社區


推薦閱讀:

HDFS NameNode內存詳解
Spark 2017 歐洲技術峰會摘要(人工智慧)
SQL on Hadoop Comparision
想轉行做大數據技術相關的工作,需要學習語言還是學什麼?
在納斯達克Nasdaq做碼農是什麼樣的體驗?

TAG:大数据分析 | 大数据时代 | Hadoop |