Spark從1.4.x升級到1.6的喜人效果
01-30
Spark從1.5.0開始,在內存管理上引入了相當受歡迎的優化:
推薦閱讀:
Native memory management & representation
- Compact binary in-memory data representation, leading to lower memory usage
- Execution memory is explicitly accounted for, without relying on JVM GC, leading to less GC and more robust memory management
實際效果,引用我司某台slave節點的監控圖表。
內存:
CPU:
中間有大約3周的數據缺失是因為忘了enable collectd // 捂臉還好,在升級1.6的同時重新打開了collectd。可以觀察到內存佔用的大幅優化——幾乎是省掉了一半。CPU佔用也相應降低了。我們Spark jobs的執行時間縮短了30%+。
不然直接砍掉一半的節點算了……
推薦閱讀:
※矽谷之路57:深入淺出Spark(八)如何處理實時數據
※深入淺出Spark(三)什麼是Standalone
※[譯]打造大數據產品:Shiny的Spark之旅
※矽谷之路54:深入淺出Spark(七)如何排序100TB
※大數據那些事(9):起早貪黑竹籃打水的18摸(IBM)
TAG:Spark |