從頭學習大數據培訓課程 spark 基於內存的分散式計算框架(三)RDD 編程二次排序、mapjoin

1.二次排序

自定義比較類用於key

用spark rdd實現二次排序

程序結果

藉助之前封裝的orcutil,把結果保存為ORC格式的文件,注意輸出hadoop格式時要將rdd轉成pairrdd

程序運行結果

推薦閱讀:

大數據時代的愛情是一場精確的匹配遊戲
大數據計數原理1+0=1這你都不會算(七)No.59
從產業發展的現狀看國內大數據交易的法律問題
數據產品經理之道
《數據架構》閱讀筆記(七)重複型分析

TAG:大數據 | Spark | 大數據處理 |