從頭學習大數據培訓課程 spark 基於內存的分散式計算框架(三)RDD 編程二次排序、mapjoin
04-19
1.二次排序
自定義比較類用於key
用spark rdd實現二次排序
程序結果
藉助之前封裝的orcutil,把結果保存為ORC格式的文件,注意輸出hadoop格式時要將rdd轉成pairrdd
程序運行結果
推薦閱讀:
※大數據時代的愛情是一場精確的匹配遊戲
※大數據計數原理1+0=1這你都不會算(七)No.59
※從產業發展的現狀看國內大數據交易的法律問題
※數據產品經理之道
※《數據架構》閱讀筆記(七)重複型分析