標籤:

Spark從1.4.x升級到1.6的喜人效果

Spark從1.5.0開始,在內存管理上引入了相當受歡迎的優化:

Native memory management & representation

  • Compact binary in-memory data representation, leading to lower memory usage
  • Execution memory is explicitly accounted for, without relying on JVM GC, leading to less GC and more robust memory management

實際效果,引用我司某台slave節點的監控圖表。

內存:

CPU:

中間有大約3周的數據缺失是因為忘了enable collectd // 捂臉

還好,在升級1.6的同時重新打開了collectd。可以觀察到內存佔用的大幅優化——幾乎是省掉了一半。CPU佔用也相應降低了。我們Spark jobs的執行時間縮短了30%+。

不然直接砍掉一半的節點算了……


推薦閱讀:

矽谷之路57:深入淺出Spark(八)如何處理實時數據
深入淺出Spark(三)什麼是Standalone
[譯]打造大數據產品:Shiny的Spark之旅
矽谷之路54:深入淺出Spark(七)如何排序100TB
大數據那些事(9):起早貪黑竹籃打水的18摸(IBM)

TAG:Spark |