從頭學習大數據培訓課程 hadoop 分散式計算框架(七) mapreducer多目錄輸出、innerjoin 實現
02-04
標題:mapreducer 編程,多目錄輸出、innerjoin 實現、多目錄輸入並指定所用 mapper
1. 多目錄輸出
maxout/max
maxout在輸出目錄下新建的文件夾max輸出文件的前綴
結果
文件前綴
2. innerjoin實現
map實現使用FileSplit inputSplit = (FileSplit) context.getInputSplit();取得輸入文件路徑,用文件路徑判斷是數據那個數據集
reducer實現,實現join的拼接
job配置
輸入數據1
輸入數據2
運算結果
3. 多目錄輸入並指定每個目錄所用的mapper
mappe1r實現
mapper2實現
job配置
reducer實現同第2步
輸入和輸出數據同第2步更多大數據方向JAVA視頻教程:海牛大數據社區
推薦閱讀:
※HDFS NameNode內存詳解
※Spark 2017 歐洲技術峰會摘要(人工智慧)
※SQL on Hadoop Comparision
※想轉行做大數據技術相關的工作,需要學習語言還是學什麼?
※在納斯達克Nasdaq做碼農是什麼樣的體驗?