【多圖預警】關於ARM的新PPT，你們要的瓜切好了

06-23

今天我們只聊PPT，不談技術~

近日，ARM發布了新一代CPU微架構Cortex-A76和新一代GPU微架構Mali-G76。

ARM作為移動計算領域最大的指令集和架構授權廠商，在當前正熱門的智能終端領域有著舉足輕重的地位。當前幾家世界級的移動SoC廠商，除了蘋果只採用了ARM的指令集外，高通、聯發科、三星、華為海思等都或多或少採用了ARM的CPU或GPU微架構。因此，ARM微架構的水平，直接影響著大部分智能終端、特別是安卓智能手機的性能和市場表現。

關於這次發布的新一代處理器架構，儘管官網的博客寫得較為簡略，但知名測評網站AnandTech在一篇分析文章中已經把ARM的官方PPT完整地展示出來。

經常關注數碼新聞的大概都知道，ARM發布新品的PPT向來爭議頗多，原因是其產品在性能和能效上的表現常常達不到PPT標稱值。不過對於處理器架構來說，半導體製程工藝、緩存配置、運行頻率等變數都會對其性能和能效產生影響，所以對於ARM的PPT數據我們有時候也會產生誤解，特別是當ARM對同一款架構從全局或細節的各種不同方面給出一堆數據的時候。

所以前天看到了這波PPT以後我說，ARM是親自送瓜吃了。當然這瓜未必好吃，但至少數量上看還是挺多的——新的舊的大的小的都算上，大概能有一車吧。

作為一個野雞數碼博主，儘管刀法可能不精，我還是很樂意給你們切切這車瓜的。各位想吃的話就請往下走。

GPU：Mali-G76能否翻身？

老黃退出移動晶元市場這麼些年來，被廣泛使用的移動GPU大概就剩下Adreno、PowerVR和Mali三家。（由於Apple GPU目前只出現了一代，暫時還是把它歸入PVR系。）事實上跟老黃當年的K1、X1比起來，Adreno和PVR好像也沒什麼特彆強大之處，這些年它倆能過這麼舒坦，Mali這豬對手著實是功不可沒。

算下來，上一個在規模還算可控的同時能提供旗艦級體驗的Mali GPU應該還是Exynos 7420上那顆T760 MP8了。T880本來還是能用的，無奈碰上了史詩級提升的Adreno 530——後者即便拖著一個殘廢的CPU，實際體驗還是把菊花法克兩家的MP4以及三棒的MP12按在地上摩擦。而自從把代號從T換成G，Mali還沒拿出一代能用的東西……

那麼G76這回能用嗎？看下面這個表好像能。

AnandTech預測的G76MP12性能、功耗指標

這是AnandTech根據PPT數據推算的結果。表上我們看到，結合最新的半導體製程，只需要12核心的G76就能把不可一世的Adreno 630拉下來吊打——性能小勝的同時能效有接近50%的優勢。儘管製程佔了先但總歸是翻身了有沒有？麒麟用戶、獵戶座用戶們，很激動有沒有？

不過我實在忍不住先吐槽一句——8nm不是三星搞出的營銷名詞么，怎麼和7nm放一起了？

當然，這不是個正經的吐槽。現在我們看看ARM的PPT究竟是怎麼說的吧。

ARM：G76 vs G72 綜合提升

第一張圖，ARM表示，我們的新架構對比前代有巨大的提升，包括30%的性能密度（即面積效率）提升、30%的能效提升和2.7倍的機器學習提升——左下角標明了這組數據的提升條件是相同的半導體工藝、相似的條件下。

所以根據這張PPT，我們設10FF下G72的性能、功耗、面積均為1，那麼同為10FF下，單位面積G76的性能就是1.3，功耗則維持不變（為1）。

然後我們考慮半導體工藝的提升，當G76從10FF更換為7FF時，按照TSMC官宣的近幾代工藝的特性數據，我們認為其功耗會降低33%，即為0.67；面積縮減37%，即為0.63。（這裡不考慮性能提升的原因是，半導體工藝的性能提升並非我們平時所說處理器性能提升，下一期《移動SoC測評概論》我就會把這事兒給你們說明白。）

TSMC工藝的進步

現在我們就可以按照10FF下G72的表現（AnandTech表格中Kirin 970的數據）來估算7FF下G76的表現了。不過，AnandTech這裡給出的功耗是系統總功耗，其中包括了內存等部分的功耗，這部分功耗中有的不會隨著製程進步而降低（比如內存晶元的製程與SoC的製程並不一致），讓我們把它設為x W。此外，還有一些如訪存操作等產生的功耗，儘管不在GPU中，但也存在於SoC上，並隨SoC更換到新的工藝，這部分功耗也會隨著工藝更新而下降，我們設為y W。

我們首先考慮與麒麟970的GPU在10FF下面積相同的、由G76組成、並由7FF工藝製造的新GPU，那麼它應當具有970 GPU 67%的功耗和1.3倍的性能，即48.96FPS的性能和[0.67*(6.33-x-y)+x+0.67y]W的功耗。後者化簡得(4.24+0.33x)W。

現在讓我們考慮10FF下970 GPU的面積可以容納多少顆G76：下圖是筆者之前根據Tech Insights發布的晶元照片和部分數據推算出的有關麒麟970面積的數據。圖中顯示，麒麟970的GPU總面積為18.04mm2，其中單顆Mali-G72的面積約為1.304mm2，shared logic則佔用了約2.39mm2的面積。

麒麟970晶元照片及面積

G76：執行單元面積增加28%

ARM的這張PPT表示，在許多計算模塊增加為G72的兩倍的情況下，G76的執行引擎面積只增加了28%。我們假定這近似於整個G76的面積增加（這與AnandTech下文中的意思相近，如下圖），於是得到單個G76在10FF下的面積約為1.669mm2。這就意味著，假定shared logic面積不變，970的GPU面積下等效於一個「9.375個G76核心」的新GPU。

AnandTech表示，單個G76的面積約為兩個G72的66%

現在我們把這個擁有「9.375個G76核心」的新GPU擴充為G76MP12——顯然GPU功耗和性能都將與核心數呈線性增加，於是很容易得到新的GPU性能為62.67FPS，整機功耗為[0.67*(6.33-x-y)*12/9.375+x+0.67y]W，即(5.88+0.07x-0.26y)W。

回顧剛才我們對x和y的定義，顯然它們都是正數，同時(x+y)作為圖形測試中非GPU單元的功耗肯定也不至於太大，根據麒麟970的6.33W的總功耗，我們不妨假設其上限是3W，這應該已經是一個很高的上限了。

在這種限制條件下再來看上面我們得到的功耗表達式，中學數學告訴我們功耗至少會有5.1W——於是在這種極限下，G76MP12的性能和功耗數據與S9+上那顆驍龍845是非常接近的，而遠沒有達到表中第一行推算的水平。

順便一提，這樣推算出的G76MP12的總面積約為14.13mm2，即Adreno 630的1.4倍。

看到這裡Adreno粉們大概可以鬆一口氣了。而至於AnandTech為什麼會得到這麼優秀的推算結果——ARM還有這麼一張PPT表示，使用7nm的G76可以比2018年的設備性能提高50%。

ARM：7nm的G76性能將比2018年的設備提升50%

然而我們並不知道這個1.5倍意味著什麼，ARM也沒有承諾相同的面積或者功耗——或許說的是極限性能？但總之2018年的Mali設備目前看來只有Exynos 9810，而把表中9810的性能指標乘以1.5，似乎就精確地得到了69FPS。

AnandTech的數據是不是這麼算的呢，我就不知道了。

後面還有兩張PPT更具體地講到了性能和能效提升，數據與前面給的比較接近，而並看不出1.5倍是怎麼來的。

ARM：G76的性能（面積效率）提升

這張PPT說的是性能，或者面積效率。三組對比包含了兩組複雜場景的測試，和中間一組一般的遊戲體驗。據AnandTech說，第一組是Manhattan 3.0測試，第三組則是Car Chase測試。

ARM：G76的能效提升

第二張PPT說的則是能效，同樣根據AnandTech的文章內容，指的是在單GPU功耗限制在2.3W時的能效提升。

那麼，ARM在G76上到底做了什麼呢？

事實上前面那張標稱面積為1.28倍的PPT已經展示過了，只不過不夠全面，讓我們再加兩張PPT。

這張圖前面放過了

ARM：G76與G72的最大規格對比

ARM：G76紋理單元翻倍

這三張PPT已經把ARM的路子展示的很清晰了：把倆G72融合成一個G76。這種操作就像近年來蘋果和三星在CPU上做的那樣，俗稱「堆胖核」——這當然是科學的，儘管GPU的並行效率確實相當高，但總不是100%，並行計算永遠無法避免產生額外的開銷。把更多的單元堆進一個核心，效率總是比並聯更多核心更高的。下面一張PPT展示了這一點。

ARM：G76的執行單元能效提升

事實上，作為移動GPU的領頭羊，Adreno在630上也進行了類似的事情，只不過高通的GPU核心規模更加可怕：在540上還是四核共256ALU的規模，到了630直接變成了雙核共512ALU，同時還增加了50%的總紋理單元。

當然，由於ARM的PPT習慣性使用誇張的藝術手法，G76的真實療效究竟如何還有待上機檢驗。畢竟，換湯不換藥的Bifrost架構，對於遊戲體驗十分重要、Mali卻連年開倒車的驅動開銷，這次的PPT里又是提都沒提……emmm，想到這個就覺得這可能只是個「日常翻身」的東西……

而即便ARM能夠實現其PPT上宣稱的進步，也別忘了這是在製程領先半代的情況下完成的。況且，你以為對面Adreno堆了512個ALU才打出現在的能效？

驍龍845剛上市那段時間我就分析過，從ALU烤雞達到接近7W的功耗（遠超場景測試功耗）來看，在實際圖形渲染中，Adreno 630的ALU很可能只開了一半，而另一半則很可能是高通特地為異構AI準備的。所以假如高通把512個ALU全部拿來跑圖形，頻率從710MHz降到400MHz以內，它還會有現在這麼高的功耗嗎？

當然，投入圖形計算的ALU不可能無限制增加，強行把630多的一半核心打開，很可能會遇到其他單元、帶寬或驅動的瓶頸，但誰敢保證明年640不把這些給你安排的明明白白？

另外說起AI，ARM在Mali上的所作所為讓人覺得他們還不知道這世界上有種東西叫NPU——不僅華為和蘋果已經在SoC中嵌入了這類模塊，高通最近發布的物聯網SoC中也開始加入，谷歌更是直接外掛了3TOPS的TPU……這個時候，ARM還堅持不懈，哦不，應該叫執迷不悟地在負責圖形處理的GPU上強加一堆未必會被廠商用到的FP16、INT8等等的支持，還大張旗鼓地宣稱這次ML又提高了2.7倍，實在是讓人無法理解。

高通QCS605中的用於AI計算的神經處理器，標稱1W功耗下算力2.1TOPS

當年G72特地提升了FP16的性能

或許這就是「公版」架構的尷尬之處：為了滿足不同廠商多種多樣的需求，就不得不什麼都做、什麼都堆，還不得不使用具有很高配置自由度的小核心。我不否認Mali的技術水平與Adreno的確有不小的差距，但這些關於「公版」的考慮的確也是Mali成為廢柴的原因之一。

CPU：Cortex-A76能否成為新「安卓之光」？

說完了萬年廢柴亟待翻身的Mali，現在輪到新CPU架構A76了。廢話少說，直接上PPT。

ARM：A76 vs A75 綜合提升

和G76的PPT不同，這張PPT左下角直接寫明了是拿7nm下狂奔到3GHz的A76跟10nm下硬上2.8GHz的A75去對比。結果是性能提升35%，能效提升40%，機器學習性能提升4倍。

ARM：A76的IPC提升

當然，ARM也不是真的慫到不敢比IPC。在很後面的PPT中就拿出了A76的IPC提升數據。不過為了好看，這裡並沒有僅對比A75，而是把更弱雞的A73拉了出來作為柱形圖的基準……

當然左邊的一系列數據還是給出了與A75的對比，比較重要的有：整數提升25%，Geekbench提升28%，內存帶寬提升90%，AI……算了不提AI好嗎？

作為主要為移動設備打造的CPU架構，還是欽點Geekbench作為主要的對比測試好了。下面一張PPT顯示，在Geekbench測試中，3GHz的A76能提供1.9倍於2.45GHz的A73的整數性能，以及2.5倍於後者的浮點性能和1.8倍於後者的綜合跑分。而對比2.8GHz的A75，綜合跑分的提升幅度則是35%——這也是第一張PPT中性能提升幅度的由來。

ARM：A76的Geekbench 4提升

——等會兒，按這張PPT，我忍不住要算一下A75對比A73的提升了……至少綜合跑分是能算出來的，大概是1/3。可是，去年你們不是這麼說的啊（注意右下角的同製程、同頻率設定）——

ARM：A75的IPC提升

好吧，考慮到你們的PPT還有這一個版本：

ARM：A75 vs A73

以及在綜合提升上是這樣寫的：

ARM：A75 vs A73 綜合提升

那我只能當你們前面那個圖寫錯了——如果這「1.34x」包含了頻率提升的話，和今年的PPT還是相當符合的。但問題是，在你們當年的PPT中，可從來沒出現過「2.8GHz的A75」和「2.45GHz的A73」這倆東西啊，你們當年宣傳的是這樣的——

ARM：A75 A73 A72 A57能效對比

結果我們發現，圖裡這倆一個都沒見過：A73在高通魔改以後的雞血頻率是2.45GHz，但日常幾乎維持在2.36GHz；而A75被高通魔改後借著10LPP的工藝全然不顧能效硬著頭皮終於跑到了2.8GHz的高頻，然而不僅離ARM標稱的3GHz仍有差距，還得背上「閹割版A75」這口不明不白的黑鍋……

AnandTech繪製的功耗-性能曲線圖：Kryo 385從2649MHz提頻到2803MHz，功耗飆升30%

這還沒完。我們知道，2.8GHz的A75在驍龍845上跑Geekbench4，單核總分約為2500，以此倒推2.45GHz的A73就應該跑到1875分——且不說標稱2.45GHz實際跑分頻率只有2.36GHz的835怎麼看（事實上筆者的米6在2.36GHz跑個1920分都是小菜一碟），就連同為2.36GHz A73的麒麟960、970看這個跑分都不服：我都能跑到1875。

所以也實在是不明白高通為什麼不老老實實說2.36GHz，非要標一個日常不開只有個別場景雞血才能跑到的2.45GHz，這頭給ARM把A75 IPC提升小的鍋扛下來，那頭還要在算Kryo 280 IPC的時候頂上「半定製不如公版」的帽子……

AnandTech的IPC對比，其中Kryo 280以2.45GHz計算

雖然A76的PPT把A75的PPT臉打得啪啪響，但畢竟就這麼一個PPT，除此之外啥也沒給。在搭載A76核心的消費級晶元上市之前，我們也只能暫且拿著這PPT數據說話了。根據PPT，AnandTech估算了A76的Geekbench4單核性能得分（經筆者檢驗，這個估算應該是沒什麼問題）。不過出於對功耗控制的不信任，在估算3GHz性能之餘，圖表中還列出了2.5GHz的性能，這或許更接近於移動終端上A76的實際狀態。

AnandTech：A76的Geekbench 4成績推算

按照這組數據來看，A76相比三星今年推出的6發射巨核Exynos M3，整數和浮點的IPC分別落後了5%和8%，這對於4發射的核心還是一個不錯的成績了。不過，如果在7nm下A76也只能把頻率穩定在2.5GHz附近，那麼相比於驍龍845 20%左右的整數提升恐怕並不讓人滿意——除非功耗可以控制得像835那樣。

相比於整數性能的萎靡，從A73到A75再到A76，ARM的浮點倒是堆得夠狠。如果這次PPT屬實的話，A76的浮點IPC可以達到60%的提升，哪怕最終只能穩定在2.5GHz的頻率上，也比845提高了超過40%。可問題是，在移動設備的日常應用中，整數運算佔據了大多數，只有在軟體解碼、大型遊戲、視頻編輯等場合才會很吃浮點。而且，根據驍龍845的實測數據，A75為了堆浮點，已經在功耗上作出了極大的犧牲——Geekbench多核浮點測試的峰值功耗由835的6.5W左右飆升至10W附近，所以我們實在不能不對A76的浮點功耗產生擔憂……

話說回來，無論是三星推出的巨核M3，還是這次ARM推出的4發射A76，總讓筆者有一種既想做大核又想提頻率的感覺。蘋果A系列從Cyclone開始堆核心規模，但結果是IPC遙遙領先的同時主頻一直沒有太高——唯一一次超過工藝限制硬上高頻的Hurricane只到2.34GHz就翻車翻了個徹底，導致更新了10nm後無論是A10X還是A11都不敢越過2.4GHz。而M3和A76這邊卻執著於拖著已經具有相當規模和IPC的大核心跑2.7GHz、2.9GHz、3.0GHz這樣的高頻——他們似乎並不怎麼考慮移動設備的發熱和續航。要知道，初代FinFET以後半導體製程的更新中，S/T兩家似乎都是密度先於性能的策略，這從根本上限制了高頻的穩定性和熱穩定性。而即便是在高性能上業界領先的Intel，也無法阻止頻率拉升後功耗的暴漲。

Intel功耗-頻率圖：剛看的時候想叫爸爸，讀個數算一算你再跟我說這是線性？

這就說到了能效。關於能效，ARM的PPT是這麼寫的：

ARM：A76的能效提升

讀圖：同為單核0.75W的情況下，7nm的A76比10nm的A75性能提升40%；而在10nm、2.8GHz的A75的性能下，7nm的A76功耗下降50%——說人話：反正我就是不告訴你們我A76跑到3GHz會怎麼樣。

對比之前A75的PPT，乍一看感覺A76已經挺良心了，同為750mW下的性能提升，A76已經比前代提升了40%，A75才提升20%。

ARM：A75 vs A73，同功耗限制下的性能提升

不過別忘了A73、A75兩兄弟都是10nm出來的，你一個7nm的貨跟人家摻和啥？

至於3.0GHz的A76功耗會是什麼樣子，我們不妨參考一下前面AnandTech繪製的A75的功耗-性能曲線——按照A75到A76的IPC提升25%（SPECint）或者28%（GB4）來算，2.8GHz的A75也就約等於2.2GHz的A76；而A75在2.65GHz的功耗比2.2GHz大約增加了70%，到2.8GHz又增加了（2.65GHz的）30%。再考慮前面TSMC工藝數據表中，7nm幾乎可以忽略的性能提升……如果A76真能在移動設備上到哪怕2.8GHz功耗還不爆炸，我真想打賭吃點什麼……（此處應該 @跳跳可愛虎）

最後提一句，據說ARM跟三星半導體是沒有什麼直接合作關係的，所以這裡10nm的A75，搞不好是台積電的10FF流片，那功耗恐怕就更慘了……

說起「胖核」，我們還是無法忘懷三星在9810上翻的車：在嚴苛的功耗限制下，擁有巨大核心及配套緩存面積的四顆M3隻能苟在1.8GHz上，幾乎是白白浪費了巨額的晶體管。這使我們不免對A76產生擔憂：四顆A76能不能在一個手機CPU中和諧共存？或者在明年的旗艦上，是否會出現2+6，或者2+2+4的核心配置呢？

儘管ARM在A76的整個PPT里都沒有提到面積數據，但畢竟它也只是一個4發射的大核，加上公版架構一貫的面積效率，我不負責任地推測A76的實際規模應該比M3小得多。有了7nm的加持，四顆A76未必會比10nm下四顆A75大。而如果2.2GHz附近的功耗真如ARM的PPT所言，四顆A76在2.5GHz附近和諧共存應該還是不成問題的。

當然，這又要依賴於PPT的可信度了……A75屍骨未寒，我們也不敢過多期待。

除了手機端，ARM還有更大的野心。借著A76規模的增加和牙膏廠10nm難產的時機，ARM把「魔爪」伸向了筆記本電腦。（當然，PPT里只是說筆記本級的性能，但3.3GHz的A76也真不是手機或者平板吃得下的。）

ARM：感受一下3.3GHz的A76

峰值性能倒沒什麼新東西，無非是把A76的頻率又拉了一檔。但第二組中5W功耗下的對比還是有點意思的——因為ARM再次施展了PPT大法，引入了一個歷史上並沒有在消費級設備上出現過的16nm的2.45GHz的A73。

但5W倒肯定不是單核功耗，因為核心頻率都給你寫明白了。對照著兩個提升比例來看，3.3GHz的A76相比2.45GHz的A73，功耗提升大概有10%吧。而至於16nm下A73的功耗是什麼水平，可以看AnandTech下面這張表中960的數據：

AnandTech的CPU功耗測試

考慮到16nm的A73在2.36GHz到2.45GHz早就進入了功耗暴漲區（即超出了功耗牆），筆者再給一個不負責任的推算，3.3GHz A76的單核功耗在AnandTech的測試負載下大概有2.4W左右吧（反正估計錯了有ARM的PPT背鍋）。

老實說我是不想放AnandTech這張表的，因為表放上來就隨之引入了一隻新瓜：A73的PPT大法。

ARM：A73的功耗降低

ARM的PPT宣稱，在相同製程相同頻率下，A73的功耗要比A72低至少20%。請大家自行對比上表中麒麟960的A73和950、955兩個頻率的A72，驗證這張PPT的數據是否科學。

至於說960工藝縮水用了16FFC的同學，請參考下圖自行考慮誰虛標的可能性更大（畢竟這兩家，咳咳，你懂的）。

海思：麒麟960採用TSMC 16nmFF+工藝

切瓜切到底，關於A73的面積，ARM還有這麼一張PPT：

ARM：A73的面積縮減

而16nm下A72的面積在這裡：1.54mm2。

部分CPU核心面積圖

算下來10nm下A73的面積應該是0.83mm2，請自行對比前面我給過的970晶元照片及旁邊標註的大核面積數據。我該說啥好呢？

結束語

今天的瓜到這裡差不多就結束了，不知各位吃得過不過癮，反正我是切得夠累。

倒不是我跟ARM過不去，只是這PPT的藝術實在是有些嘆為觀止。

當然了，對這樣一個為我們的移動智能終端提供著從指令集到微架構的科技公司，我的內心還是充滿感激的。今天研究研究他們的PPT也只是圖個樂子。畢竟，從微架構到真正流傳到消費者手中的產品，還經過了各大IC廠商和半導體廠商的定製，這是一個極其複雜和龐大的工程，其中任何一個環節出現問題，都可能導致PPT報道的偏差，誰該負這個責任還真不是我們普通消費者能看明白的。

所以今天的瓜什麼味兒，你們自行體會——咳咳，我只是個切瓜的，我什麼都沒說啊！

順便再送G71、G72、A55三隻瓜，這個就不切了，你們依個人口味酌量消化。（手動滑稽）

ARM：G71相比T880的提升

ARM：G72相比G71的提升

ARM：A55對比A53同頻能效提升15%

參考資料

ARM（http://www.arm.com）

AnandTech（http://www.anandtech.com）

Tech Insights（http://www.techinsights.com）

Qualcomm（http://www.qualcomm.com）

微博 @ioncannon @精神占股已過萬

（本文同步發表於微博@ 小扁藍超威、微信公眾號「文明的彼岸」）