標籤：

Spark 大數據大數據處理

從頭學習大數據培訓課程 spark 基於內存的分散式計算框架（三）RDD 編程二次排序、mapjoin

04-19

1.二次排序

自定義比較類用於key

用spark rdd實現二次排序

程序結果

藉助之前封裝的orcutil，把結果保存為ORC格式的文件，注意輸出hadoop格式時要將rdd轉成pairrdd

程序運行結果

推薦閱讀：

※大數據時代的愛情是一場精確的匹配遊戲
※大數據計數原理1+0=1這你都不會算(七)No.59
※從產業發展的現狀看國內大數據交易的法律問題
※數據產品經理之道
※《數據架構》閱讀筆記（七）重複型分析

TAG:大數據 | Spark | 大數據處理 |