如果CPU的cache（緩存）容量上GB或更高，會有哪些不同？

01-06

其他條件都沒太大變化的情況下，
PS，
當年的內存也才64K成高配了，不知道CPU里的cache多會兒能上GB，現在大部分CPU還在個位數的MB停留著的，
題的過程中搜了下的，估計上2位數了，沒想到還真有，一個chache突破了個位數的i9 cpu，二級的是10M，三級的13.75M，就是沒找到一級緩存在哪。。四級的不指望了。。
Intel 酷睿i9 7900X參數

謝邀。

GB級別，你說的那個應該是DRAM cache

前段時間審到一篇paper，模擬器數據，做GB級別的DRAM cache可以在部分workload上提升40%~50%的性能。也有很多workload是cache不敏感，cache容量翻好幾倍，性能基本原地踏步。

開腦洞問題.

討論單核吧, 多核在這說不清.

題干有限制除了1G Cache, 其他條件沒什麼變化. 1G的SRAM在CPU同頻/半頻工作挺誇張的, 假設是L4吧, 如果實現了, 片內L4訪問的Lantecy可能需要100個周期以上, 這等於拖慢了訪問主存速度, 假設原來訪問主存Latency是200T, 那現在則是300T. 如果測試代碼是隨機訪問數據, 或流訪問數據, 總體性能會有較大下降.

如果測試代碼是計算型, 比如壓縮加密等, 不需要頻繁訪問Cache, 其性能還是受CPU主頻控制, 增加1G Cache沒什麼用, 性能不變.

對於需要使用&>8MB &<1GB內存的無規律訪問內存的測試程序, 1G Cache才能發揮作用. 這種畢竟是特殊程序, 其典型單線程代表, omnetpp的MKPI能從5降到0, mcf的MKPI能從10降到0. 對後者來說, 也就是每百條指令, 有一次Mem Hit變為L4 Cache Hit的收益. 估算當下處理器一次Mem Hit大致要200周期(50ns, CPU 4GHz), 變為L4 Hit後收益為100周期. 處理器IPC按1.5算. 算下來mcf上當下處理器做8個周期的工作, 擁有1G Cache的相同處理器只需要5個周期, 性能提升37.5%.

由於較多的程序都沒有上述特徵, 實際上這種1G Cache的CPU整體使用性能很可能是下降的, 這是由於1G Cache的ASIC實現較慢導致的. 如果開腦洞無視ASIC實現問題, 強行假設現在的Intel I7處理器L3 Cache=1G. 那麼"Fit 8M~1GB Memory"的這類程序能獲得37.5%+的提升.

接下來問題就轉換成了"有多少程序fit 8M~1G Memory?" 我不知道. 看了下Spec2k6, 按子調用來計數, 8M時MKPI在5以上的有12個, 佔21%. 當然MKPI是和CPU結構的相關項, 這裡也有偏差.

其實Spec2k6的程序特性分布特點, 和普通用戶日常程序特點也不一樣. 普通用戶上網, Spec在浪費電. 乾脆強行假設程序特性也一樣吧, 那麼結論是有21%的程序能提升37.5%, 平均提升量約7.9%.

回答完了, 下邊是扯淡

如果不是用SRAM實現就不算腦洞了, 但Cache到1G肯定是多核匯聚的, IBM Power9是120MB eDRAM Cache, 24Core. Core0訪問L3 Cache 0..23的latency應該不同, 用了NUCA. 單核性能並非處理器賣點, 性能上IBM強調的是on-die/IO Bandwidth, 要並發. 該討論的是, 單核程序怎樣寫(編譯)才能與硬體適配得好.

如果扯到並發, 1G Cache這個命題就要加更多的限定條件, 比如介面位寬, 比如是統一/分布訪問, 比如衡量性能指標. 不然沒法答, 像如果有1G RMB怎麼花一樣沒法答.

不過也有些能預測的, 1G Cache如果實現, 就會有大量在512M Cache上都會卡的代碼, 你以為好的硬體提供了好的用戶體驗? No. 提供了好的特效.

現代處理器幾M十幾M二十幾M的緩存，片上面積大小就幾乎跟處理器核心部分面積差不多了。

上圖是AMD剛發布的RYZEN APU，共2M L2 +4M L3加起來約等於四個ZEN CORE的面積。

intel這邊也差不多是這樣。

那麼問題來了，是核心重要還是緩存重要？這兩個的製造成本可是一樣的。

緩存再多，核心不行喂不飽，有啥用？弄那麼多緩存幹嘛？浪費錢？

補充一下，這個題目其實很有意思的。

它基本等價於L1 Cache Hit Ratio = 100%的情況。

結論其實還是很明顯的 —— 對優化做的越差的程序越有效果，但是對於已經寫得很好的代碼，其實快不了多少。

原回答見下方，主要是為了解決題主「不知道L1在哪」的問題。

--------------------------------------

Core i9-7900X - Intel

你說的這個不叫cache容量變大了，叫內存速度變快了。

cache珍貴不在於它的小，而在於它能跟得上cpu的速度。如果有一種存儲介質可以跟的上cpu速度，容量又很大，那就不需要cache這個概念了。達到內存容量要求就不需要cache的概念，如果達到tb級別，那多級存儲結構就不存在了。計算機達到了理想中的體系結構。

加個小尾巴，歡迎關注我的知乎專欄，

知乎專欄·「現代計算機」- https://zhuanlan.zhihu.com/modern-computing?utm_source=com.android.emailutm_medium=social

下一代EPYC是256MB L3，滿足你

現階段的CPU技術直接上1GB的L3或者L4是不可行的。

因為處理速度根本達不到使用這麼多Cache的要求。

cache有很多種翻譯，緩存/快取，很貼合它的意思——輔助作用，用低容量但低延遲高帶寬，來緩解讀取/保存壓力。

如果壓力不大，cache派不上用場，那就是很大的浪費了——無論是耗電，還是面積大帶來的製造成本。

事實上1G的cache要全部發揮的話，考慮到要比下一級內存的速度快，現有程序大概都不會在短時間釋放出這麼大量的數據吧……

如果把這個cache降一級，當作更高速的內存來用，那理論是會有幫助的，相當於提高了現有內存的參數，降低延遲提升帶寬。不過事實上現在內存速度一般不是瓶頸，價格和容量才是。不過對於核顯應該是有利的。

不過最大的問題還是在於價格。SSD比HDD貴了吧，傲騰更貴。內存貴得買不起了吧，你這1G的「cache」當然更貴。片上還會比外部的再貴一截。

實際生活中我們都是要考慮經濟因素，所以結果應該是性價比過高而成為歷史博物館的收藏吧。

話說有哪些程序是訪存密集型的？我能想到的也就各類壓縮演算法，還有cryptonight挖礦。

一、你確實會買不起：8G內存現在一條近800，L3的速度是其數十倍，內存的實際頻率也就200M（匯流排頻率的一至三倍，所謂的2400算上了預讀取的部分），L3的話是800M-4G（匯流排頻率乘倍頻）。換言之，這種存儲器的單位價格由於工藝要求會是內存的百倍，而且產能嚴重不足（如果你要做成內存的話），到時候可能會是內存的上萬倍。

二、你不會獲得性能提升：緩存是用來存即將計算的數據的，內存是存所有CPU要求讀取的。內存會載入進程的全部代碼，而緩存則只預存活躍的進程。如果CPU沒能力在數據全部載入的過程中完成所有運算的話，緩存就沒必要那麼大。換言之即使三緩高達數G，CPU使用的也就那8M

為啥不用你的腳趾頭好好想想，緩存是怎麼用的？你搞那麼大，先不說物理上代價如何，如何搜索到你需要的內容？

超市（硬碟）有很多零食（數據），題主拿了一些回家，裝柜子（內存）里，又拿了一些放茶几（CPU緩存）上，躺沙發上邊看電視邊吃，美美的，順便開了個腦洞，要是有個柜子那麼大的茶几。。。甚至，超市那麼大的茶几？。。。會發生什麼應該很清楚了吧。

現有的軟體是為現有的緩存參數做優化的（反過來說也基本沒錯），要加大cpu緩存而基本不對軟體產生影響的話，只能增加路數。。那硬體複雜度可就很感人了。。

業界很早就發現超長流水線不是長期發展方向了，超大緩存應該很快就要發展見頂了。

我說的路數是多路緩存里的路數哈。

補充一波我下面的評論：

請教CPU的cache中關於line,block,index等的理解？

緩存大小=緩存線大小乘以內存地址哈希除子乘以路數。

我們拿x86來舉下例子：

緩存線大小: 大家都是按64位元組緩存線大小，來設計多線程的數據結構避免偽共享的，所以64這個值基本是不可能改的，改大了就可能產生某些過去不會發生的偽共享。

內存地址哈希除子：多數內核或者用戶態程序對緩存命中率的優化都必須考慮緩存線大小乘以內存地址哈希除子這個值的大小。所以一般都是4K除以64（同一個內存頁的所有地址對緩存的使用最好不要產生競爭，所以不要小於這個數值比較好）， 8K除以64的比較少見。太大了的話，內存的頁換出和緩存的無效不是同調的，可能會對一些已有的優化工作產生負效果。

路數：純屬硬體細節，程序基本考慮不到他什麼。

所以只有路數，基本和應用程序優化沒有什麼關係，cpu可以隨便的加，而且可以不是2的冪，但是加大之後給硬體帶來的優化設計負擔可就大了。畢竟要選擇某一路多級逐出還是挺麻煩的事情。

會讓你買不起

CPU對緩存設計的是金字塔架構，見下圖

Cache有單核獨享和眾核共享，Cache中訪問數據消耗3個時鐘周期的話，訪問memory大約消耗200個時鐘周期，Cache設計少一來是成本，二來大了也會抬高時鐘周期。

我覺得題主若是問「有上GB容量的寄存器」可能更接近題主想知道的答案。因為畢竟就算是L1 cache也不是最接近CPU的存儲設備。況且我認為有GB的cache性能也並不會提升太多，之所以設定memory hierarchy，主要是是因為程序運行有一個80/20原則，如此而已。

先回答為什麼現在不把cache做這麼大？

access time = hit_rate*access latency + miss_rate*miss penalty

主要原因是容量大小和訪存速度是成非線性反比的。容量太大無法滿足系統要求的訪存的速度既訪問延時，所以減小容量來滿足訪存速度。既上述公式中的access latency增大了。

容量太小的問題是，既上述公式中的miss_rate增大了，而miss rate增大，需要向下一級cache或者主存去取數據，學術上交miss penalty。

所以如果容量能夠上GB並且更高不考慮面積功耗等等限制條件，並且能夠滿足訪存速度的要求，那麼顯然最大的好處就是大大減小了miss rate發生的情況,增加了hit rate，提高了訪存速度。

然而現實中受限於面積增大而導致的access latency非線性增長，面積增長導致晶元容納不下，功耗增長無法滿足晶元定義等等原因，總是選擇合適大小的緩存，來做性能的tradeoff。

除此以外訪存帶寬也是一個很重要的限制的條件，考慮上GB大小的DDR，除了比較高的訪問延時之外，DRAM的訪存帶寬也一直上不去，所以常常成為系統的瓶頸。而CACHE的訪問帶寬往往等於或者接近系統的匯流排帶寬，這是因為CACHE一般使用SRAM工藝，而DDR使用DRAM工藝，面積物理特性限定了它的傳輸帶寬與訪問延時。

BTW，為什麼一級緩存最小只有幾K，而三級四級緩存就能做到幾十M呢，原因很簡單，L1 CACHE離 CORE最近，往往能夠接受的access latency就是一個時鐘周期，既一拍就返回訪問L1 cache的數據，如果CPU跑在2GHZ，那麼允許的access latency在0.5ns，而二級緩存放寬了access latency的要求，所有可以做的更大來滿足更慢的access latency，三級緩存更甚，可以再放寬access latency的要求，再慢的access latency，不過無論如何當今的SRAM或者EDRAM技術只能允許MB的尺寸大小並且是在手工定製的情況下，如果要上到GB，那只有DRAM能夠勝任，而DRAM最大的問題上文已經提到，並不適合用來做CACHE使用。

cache大了有什麼用不好說，但是有一個相反的問題：last level cache小了會怎麼樣。

Micro13的paperThe reuse cache提出了doensizing cache的想法。

如果cache reuse rate很低，不僅繼續增加cache size意義不大，減小size也不會造成很多性能損失。

Intel KNL 有 2GB L4 DRAM cache。不過提高的主要是帶寬。

雖然我不懂，但我知道電腦是遵循短板效應的，總體性能取決於最差的那個點，而現在緩存應該不是那個點，所以應該沒什麼用吧

讀取的效率應該會降低不少 cpu價格漲了不知道多少倍不如加內存性價比高

私以為，這個問題意義不大。成本的增長遠遠超過效率的增長。

緩存通過貼近cpu增加緩存級數來為cpu實現提前快速提取。但是現在摩爾定律已經可以預見的日子裡被打破。晶體管的極限已經快到了。

而且G級別的緩存放在cpu旁(極貼近)在技術上也是有壁壘的，最少近幾年是不可能實現的，也沒有實現的意義。

如果說最大的不同我認為兩個，一個就是緩存器的面積，一個就是成本。

Die-stack DRAM可以做到GB級別，on-die GB級別暫時還是不太可能實現。順帶一提，每個level的cache都是經過重重實驗優化得出的大小，其中也包括了符合當今fabrication的標準。現在cpu普遍14nm吧，這樣一來大概一個CPU享有十幾MB到小几十MB的LLC。反著推一下，如果LLC 1GB on-die, 你的製程可能是多少？摩爾定律允許嗎？

CPU的cache太大或者太小都不行，cache太大了命中率上去了，但是定址成本太高，定址速度變慢，cache太小了命中率就會太低，導致需要經常直接訪問內存。所以cahe不用太多，計算下來的最優大小就好。