如何評價新發布的ARM Cortex-A76？

06-03

Arms Cortex-A76 CPU Unveiled: Taking Aim at the Top for 7nm

公版推進到新的高度，僅此而已

其實大致的流水線架構圖是這樣，前端4解碼寬度，8uops的dispatch，後端依舊是8EU結構，4標量（3ALU，除法器DIV與一個ALU復用埠，依舊是獨立的branch分支），向量單元兩個16B的SIMD單元，16B就是128bit了，兩個都可以做FMUL/FADD，當然不知道是不是FMA單元，但從公開的浮點性能來看我傾向於是的，實現2X128FMA的向量，內存子系統2AGU，實現2 load/store+1store，L1是64K的數據緩存，L2是256KB/512KB

相比A75最大的變化就是3發射升級到4發射，後端其實A76依舊是類似的，但ALU加強（變成3個），原本的2X128mul+add/等效1X128FMA有望升級到2X128FMA，由於沒有提到諸如ROB和scheduler entries的數值，但從前端解碼和後端執行單元來看，傾向於向量浮點提升100%，標量性能提升15—20%那樣，

這裡提到LD（load）是68 in-flight，ST（store）是72 in flight，其中Skylake是72（load）/56（store），甚至沒有什麼劣勢，但是Intel有規模優勢，3個AGU，2L/S+1store address另有一個1store data埠

當然anandtech提到了一些指令的延遲

不過這些數值只能參考，因為指令延遲可以針對性掩蓋，諸如編譯器通過自動的循環展開和儘可能根據流水線填充足夠指令，以及本身單元的規模，都能改變這些數值對實際性能的表現，比如Intel與AMD的AVX指令延遲和每周期都是雙發射FMA，延遲也是FMA大約3個周期，但是Intel一個是256bit，AMD是128bit，所以根本沒有可比性

L1 64KB則超過了Intel處理器的大小，數據緩存達到了2X32B/cycle，相當於針對翻倍的SIMD性能，L1帶寬也對應翻倍，以滿足密集計算需求

但是嚴格說很難說A76取得了脫胎換骨的變化，相比公版是提升不小，但是相比Skylake和A11/9810還有一定差距，根據官方的數據，相比A73在GBA提升整數90%，浮點150%，但是對比的是2.45Ghz vs 3Ghz，頻率就差了20%，浮點這麼大提升也來源於SIMD升級，諸如GEMM和FFT，這些都很考驗SIMD性能，這也是我認為SIMD應該到2X128FMA的原因，相比A75提升總分35%，但是依舊是3Ghz打2.8Ghz，排除頻率差IPC的差距可能也就20%多（FMA翻倍可能將GEMM FFT這種SIMD項目提升了很多），

我們可以看到GEMM這種SIMD項目提升最明顯，GB4總分高2.8Ghz 845 35%的話，其實更傾向於2500X1.35約等於3300那樣，3Ghz的水平不如2.7Ghz的9810，更不如A11

A11和9810這種六發射，Skylake級的ROB和超大的後端EU，3X128FMA的SIMD單元，其實比公版更配挑戰Intel

名字居然不是A77。

看ppt倒是上了不少新東西，branch direct prefetch，tlb cluster之類的。

訪存這塊看起來是重點加強的地方，36的load queue，40的store queue（這兩個queue的規格是猜測的），32B的上下層cache通路，各層cache的mshr數量也比較接近zen的規格（每層基本比zen只少2-4個），L1D比zen和skylake都大，讀寫口寬度相比A75加倍，預取也加強了，能針對更多的pattern，不過似乎都在L1，沒說L2有prefetcher，L2延遲低於Intel和AMD的處理器，不過應該是目標頻率更低的原因。

rob 128看起來有些小，不過anandtech說arm的說法是加大rob的性能收益只有7：1，可能和實現相關，指令retire控制上可能有優化，能比較快的釋放出rob，使得對rob大小壓力沒那麼大。

希望功耗不要翻車吧。

總有那麼一群人動不動就是魔改，不懂別亂答。

近些年ARM的進化路線是一代產品增加性能，下一代產品優化功耗。

A76性能提升35%，效率提升40%，也就是說功耗降低3.5%.也就是說7nm相比較10nm的工藝改進全被性能提升吃掉了。

我猜海思麒麟980趕不上ARM A76。