如何評價新發布的ARM Cortex-A76?
Arms Cortex-A76 CPU Unveiled: Taking Aim at the Top for 7nm
公版推進到新的高度,僅此而已
其實大致的流水線架構圖是這樣,前端4解碼寬度,8uops的dispatch,後端依舊是8EU結構,4標量(3ALU,除法器DIV與一個ALU復用埠,依舊是獨立的branch分支),向量單元兩個16B的SIMD單元,16B就是128bit了,兩個都可以做FMUL/FADD,當然不知道是不是FMA單元,但從公開的浮點性能來看我傾向於是的,實現2X128FMA的向量,內存子系統2AGU,實現2 load/store+1store,L1是64K的數據緩存,L2是256KB/512KB
相比A75最大的變化就是3發射升級到4發射,後端其實A76依舊是類似的,但ALU加強(變成3個),原本的2X128mul+add/等效1X128FMA有望升級到2X128FMA,由於沒有提到諸如ROB和scheduler entries的數值,但從前端解碼和後端執行單元來看,傾向於向量浮點提升100%,標量性能提升15—20%那樣,
這裡提到LD(load)是68 in-flight,ST(store)是72 in flight,其中Skylake是72(load)/56(store),甚至沒有什麼劣勢,但是Intel有規模優勢,3個AGU,2L/S+1store address另有一個1store data埠
當然anandtech提到了一些指令的延遲
不過這些數值只能參考,因為指令延遲可以針對性掩蓋,諸如編譯器通過自動的循環展開和儘可能根據流水線填充足夠指令,以及本身單元的規模,都能改變這些數值對實際性能的表現,比如Intel與AMD的AVX指令延遲和每周期都是雙發射FMA,延遲也是FMA大約3個周期,但是Intel一個是256bit,AMD是128bit,所以根本沒有可比性
L1 64KB則超過了Intel處理器的大小,數據緩存達到了2X32B/cycle,相當於針對翻倍的SIMD性能,L1帶寬也對應翻倍,以滿足密集計算需求
但是嚴格說很難說A76取得了脫胎換骨的變化,相比公版是提升不小,但是相比Skylake和A11/9810還有一定差距,根據官方的數據,相比A73在GBA提升整數90%,浮點150%,但是對比的是2.45Ghz vs 3Ghz,頻率就差了20%,浮點這麼大提升也來源於SIMD升級,諸如GEMM和FFT,這些都很考驗SIMD性能,這也是我認為SIMD應該到2X128FMA的原因,相比A75提升總分35%,但是依舊是3Ghz打2.8Ghz,排除頻率差IPC的差距可能也就20%多(FMA翻倍可能將GEMM FFT這種SIMD項目提升了很多),
我們可以看到GEMM這種SIMD項目提升最明顯,GB4總分高2.8Ghz 845 35%的話,其實更傾向於2500X1.35約等於3300那樣,3Ghz的水平不如2.7Ghz的9810,更不如A11
A11和9810這種六發射,Skylake級的ROB和超大的後端EU,3X128FMA的SIMD單元,其實比公版更配挑戰Intel
名字居然不是A77。
看ppt倒是上了不少新東西,branch direct prefetch,tlb cluster之類的。
訪存這塊看起來是重點加強的地方,36的load queue,40的store queue(這兩個queue的規格是猜測的),32B的上下層cache通路,各層cache的mshr數量也比較接近zen的規格(每層基本比zen只少2-4個),L1D比zen和skylake都大,讀寫口寬度相比A75加倍,預取也加強了,能針對更多的pattern,不過似乎都在L1,沒說L2有prefetcher,L2延遲低於Intel和AMD的處理器,不過應該是目標頻率更低的原因。
rob 128看起來有些小,不過anandtech說arm的說法是加大rob的性能收益只有7:1,可能和實現相關,指令retire控制上可能有優化,能比較快的釋放出rob,使得對rob大小壓力沒那麼大。
希望功耗不要翻車吧。
總有那麼一群人動不動就是魔改,不懂別亂答。
近些年ARM的進化路線是一代產品增加性能,下一代產品優化功耗。
A76性能提升35%,效率提升40%,也就是說功耗降低3.5%.也就是說7nm相比較10nm的工藝改進全被性能提升吃掉了。
我猜海思麒麟980趕不上ARM A76。
推薦閱讀:
※麒麟980本季度量產!首批採用台積電7nm工藝
※走進華為海思麒麟晶元的背後故事
※華為晶元到底是怎麼發展起來的?
TAG:ARM | 中央處理器CPU | 高通Qualcomm | SoC | 華為海思 |