內存性能的正確解讀

一台伺服器,不管是物理機還是虛擬機,必不可少的就是內存,內存的性能又是如何來衡量呢。

1. 內存與緩存

現在比較新的CPU一般都有三級緩存,L1 Cache(32KB-256KB),L2 Cache(128KB-2MB),L3 Cache(1M-32M)。緩存逐漸變大,CPU在取數據的時候,優先從緩存去取數據,取不到才去內存取數據。

2. 內存與時延

顯然,越靠近CPU,取數據的速度越塊,通過LMBench進行了讀數延遲的測試。

從上圖可以看出:

  1. Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHz 這款CPU的L1D Cache,L1I Cache為32KB,而L2 Cache為1M,L3為32M;
  2. 在對應的Cache中,時延是穩定的;
  3. 不同緩存的時延呈現指數級增長;

所以我們在寫業務代碼的時候,如果想要更快地提高效率,那麼使得計算更加貼近CPU則可以獲取更好的性能。但是從上圖也可以看出,內存的時延都是納秒為單位,而實際業務中都是毫秒為單位,優化的重點應該是那些以毫秒為單位的運算,而內存時延優化這塊則是長尾部分。

3. 內存帶寬

內存時延與緩存其實可謂是緊密相關,不理解透徹了,則可能測的是緩存時延。同樣測試內存帶寬,如果不是正確的測試,則測的是緩存帶寬了。

為了了解內存帶寬,有必要去了解下內存與CPU的架構,早期的CPU與內存的架構還需要經過北橋匯流排,現在CPU與內存直接已經不需要北橋,直接通過CPU的內存控制器(IMC)進行內存讀取操作:

那對應的內存帶寬是怎樣的呢?測試內存帶寬有很多很多工具,linux下一般通過stream進行測試。簡單介紹下stream的演算法:

stream演算法的原理從上圖可以看出非常簡單:某個內存塊之間的數據讀取出來,經過簡單的運算放入另一個內存塊。那所謂的內存帶寬:內存帶寬=搬運的內存大小/耗時。通過整機合理的測試,可以測出來內存控制器的帶寬。下圖是某雲產品的內存帶寬數據:

-------------------------------------------------------------
Function Best Rate MB/s Avg time Min time Max time
Copy: 128728.5 0.134157 0.133458 0.136076
Scale: 128656.4 0.134349 0.133533 0.137638
Add: 144763.0 0.178851 0.178014 0.181158
Triad: 144779.8 0.178717 0.177993 0.180214
-------------------------------------------------------------

內存帶寬的重要性自然不言而喻,這意味著操作內存的最大數據吞吐量。但是正確合理的測試非常重要,有幾個注意事項需要關註:

  1. 內存數組大小的設置,必須要遠大於L3 Cache的大小,否則就是測試緩存的吞吐性能;
  2. CPU數目很有關係,一般來說,一兩個核的計算能力,是遠遠到不了內存帶寬的,整機的CPU全部運行起來,才可以有效地測試內存帶寬。當然跑單核的stream測試也有意義,可以測試內存的延時。

4. 其他

  1. 內存與NUMA的關係:開啟NUMA,可以有效地提供內存的吞吐性能,降低內存時延。
  2. stream演算法的編譯方法選擇:通過icc編譯,可以有效地提供內存帶寬性能分。原因是Intel優化了CPU的指令,通過指令向量化和指令Prefetch操作,加速了數據的讀寫操作以及指令操作。當然其他C代碼都可以通過icc編譯的方法,提供指令的效率。

本文作者:ecs西邪

原文鏈接

更多技術乾貨敬請關注云棲社區知乎機構號:阿里云云棲社區 - 知乎

本文為雲棲社區原創內容,未經允許不得轉載。


推薦閱讀:

TAG:性能 | 內存(RAM) | 演算法 |