HotChips 28 有哪些看點？

02-24

不知道為什麼夏總的答案被摺疊了，而且原因還是政治敏感？。。。額，隨手寫一些散亂的個人想法，拋磚引玉，希望能跟更多同行們交流想法：）

主要還是說Skylake Zen Power9 三星的M1吧。。。上周在組會上也是跟大家討論了這四個CPU。這一屆好像所里沒有人蔘會，沒有early access的密碼，感謝組裡小夥伴和華為的同行發來的資料包。

1. Skylake

Intel仍然是一騎絕塵的，他家的PPT肯定是大家都要看的。

核心微結構真心是改到頭了，這一代也都是一些tweaks，看來除非thread speculation或者dataflow之類的激進想法在硬體或者軟體上爆發，不然單線程性能也就是這樣子了。。。eDRAM as Memory Side Cache這個想法有意思，看上去跟eDRAM直接作為L4 cache的方案有些區別。感覺這一個點的亮眼程度超過core的改進。

對比前代兩個有意思的變化：

1）guided autonomous control，把power control基本上從OS層面移回了硬體層面

2）號稱大幅改良的PMU，這個對於大眾用戶來說沒有任何用處，但是對於做性能開發、搞研究的人來說真是太有用了，採樣計數器從3個漲到4個，號稱覆蓋面和採樣質量都比以前好了，還引入了一個新的top-down分析方法，必須要好好研究下。現在Intel好像還沒有出skylake的Xeon，只能在自己的電腦上琢磨下這個PMU了。

2. ZEN

回到了強力的亂序多發射核心 + 2way SMT支持的路子，很多核心結構參數跟Haswell什麼的一模一樣，192 ROB，72/44的load store queue，基本資源上來了，其他的一些細節設計不出問題的話應該至少可以跟Haswell抗衡了，開個玩笑，AMD是不是剛好自己內部做評估的時候跟Intel測出來的最優值是一樣的啊？

Bulldozer的設計非常大膽，現在把這個shared front-end的想法放棄了，重新回到傳統路徑上來。其實挺讓人泄氣的，做來做去，最終還是覺得類似Intel這樣的結構保險？是不是真的除了標準的亂序多發射 + SMT以外，沒有更好的平衡點了呢？真的不希望看到一種結構最後一統江山啊。這一次NVIDIA的VLIW + DBT的Denver 2也公布了，但是PPT上並沒有講多少新東西。作為看熱鬧不怕事大的學術圈吃瓜群眾，還是希望業內多出一些不一樣的路子，到了最後都是各家在標準亂序多發射的框架下調參數比大小，沒激情呀。。。

3. IBM Power9

7TB/s的片上通訊帶寬OMG。。。。。。。。。。

其他回答提到Power9的拆分設計，其實這個設計在Power7的時候就已經有了（不確定Power5有沒有？），同一個核既有強大的亂序多發射又有多路SMT支持，核心內部的各種資源都小心翼翼地做了靜態切分/動態切分/物理副本，很有參考意義，同時IBM也是很早地開始做SMT QoS了，連QoS的方案都換過一茬了，Intel在這方面的積累可能未必強於IBM呢。

被 @Sean 提醒了一下，POWER9的另一大亮點是集成了各種可以外鏈加速器的埠/協議，猛，就一個字。

順帶吐槽一下Power7，Power8在IBM內部Journal上發的論文，一方面乾貨滿滿，另一方面，真的是可讀性太差了啊。。。從來沒有讀文章這麼痛苦過啊，一篇論文三十頁看了一個多星期還沒看完，老是看上兩三頁就忍不住犯困。。。

4. 三星的M1

三星的第一個in-house自研核，前後三年才完成。同樣是自研核的首秀，同樣是基本屬於follower的情況，覺得單就show的層面來說做的比當初飛騰明顯要好，但是飛騰實際做的事真不一定比他家差，嘿嘿：）

從M1的結構上看，基本上就是桌面CPU各種規格的縮小版，使用的也都是一些已經被實踐過的設計，適合抱著了解M1的目的去看，就不要和上面幾家Hotchips的常客大佬去對比了。。。不知道M1和後繼產品會和蘋果的A系爆發出怎樣的火花。

自己挖的坑還是要自己填啊 &> &< 虧我還是去了現場的。。

@迪迦奧特曼兄已經把幾個主流大廠的處理器說了，我就補充一下其他有意思/重要的。

其實這次 HotCHips 我主要是奔著第一個tutorial session去的，也就是future memory technology。之前看到主講人的名單就知道會有一場關於 HMC （Hybrid Memory Cube）和 HBM （High Bandwidth Memory）的撕逼，很期望雙方在撕逼中多爆點料。這裡先普及一下，HMC 和 HBM 都是針對解決現在內存問題開發的下一代內存技術。其共同點都是採用2.5D 的結構，也就是把幾個DRAM die 像幾張紙用訂書機一樣訂起來，層與層之間通過 TSV （thru silicon via）傳遞信號，最底層則通過一個Silicon Interposer 和其他晶元（如CPU）連接。（下面這個HBM 的圖比較直觀）

相比傳統 DRAM ， HMC 和 HBM 都有更高的存儲密度，更大的帶寬以及更低的功耗。HMC 是由 Micron 主力研發的，介面技術用的是SerDes，目前應用在了 Intel 的 Knights landing 裡面。HBM 由 SK Hynix， AMD 等多家廠商參與，介面還是JEDEC，早已應用在高端顯卡里。雙方為了爭奪「未來內存技術」這項桂冠在各種場合撕得不亦樂乎。HMC 的賣點在於更高的帶寬（&>= 320GB/s）以及簡單的介面技術。HBM 的賣點在於便宜，以及可定製化的logic interposer （有助於實現各種 processing in memory）。

在去年關於內存技術的專題會議 MEMSYS 上，雙方就撕過一次了。我本來指望這次 HotChips 能聽點些新鮮的，可惜並沒有猛料。。問到關鍵問題（比如關鍵指標）的時候雙方還是守口如瓶諱莫如深。。

當然，好消息還是有的，3DX Point 年底就要投產了，這絕對是一個game changer。但我問了Micron的人，他們說還做不到比SSD 便宜，所以指望它普及應該還有一段時間。

本次 HotChips 的另外一大亮點就是 Deep Learning 了。話說最近體系結構的會議到處充斥著 neural network。。我數了一下至少有6 個 talk 講的是和 deep learning 有關的。NVDIA 家的兩個GPU就不用說了。有3 家做 DSP 給 deep learning 加速的，他們的賣點是說 inference 的時候GPU效率不如 DSP 高，而且DSP 可以做的很小很便宜功耗很低，非常適用於已經有訓練好了的模型的嵌入式平台（比如無人駕駛）。值得一提的是清華大學和斯坦福大學的聯合創業公司DeePhi，他們用FPGA給deep learning加速，賣點是FPGA的靈活性能適應不斷發展的DL技術，以及用 deep compression 以減小對內存帶寬的需求。

學術界僅有的兩個talk都是關於many core的。其中有Princeton 的 Piton 和 UCDavis 的 KiloCore。Piton 早就在 @迪迦奧特曼的推薦下拜讀過他們在ASPLOS上發的paper了，所以我也不陌生。第一天午飯的時候看見一個穿了Piton T恤的小帥哥就知道他是Princeton的，由於來HotChips的學生並不多，我倆簡直一見如故聊得還挺開心，後來他還送了我兩根OpenPiton的圓珠筆 LOL。KiloCore我之前在如何看待 UC Davis新發布的低功耗 1.78GHz 千核 CPU KiloCore ？ - Sean 的回答這個回答中已經評價過了，我當時說最大的問題就是怕內存帶寬不夠，所以在現場我也問了這個問題，主講人也承認內存帶寬確實跟不上。。

兩個 keynote speech 分別是微軟的 Hololens 和谷歌的無人車，都很有意思。尤其是谷歌無人車的talk，讓我看到了我們距離真正的無人駕駛還有多遠，還有哪些挑戰，硬體層面還有哪些需求等等。十分開眼界，也讓我更加期待無人駕駛的未來。

最後一天壓軸的3個Talk 分別是Intel，IBM 和 AMD。三家裡面我覺得最有亮點的是 IBM 的 Power 9。（可能和我做的HPC的最相關吧：） Power 9 主打對heterogeneous computing的支持。支持NVLink，以及自家的開放協議介面 CAPI （最高300GB/s的雙工帶寬），內部switch 7TB/s的帶寬。。因此Power 9 可以靈活部署各種加速器（比如deep learning的）並且能提供很好的帶寬支持，這在HPC領域還是很有前景的。

當然還有很多有意思的Talk由於篇幅所限就不在這裡講了。

會場外面做產品展示的公司和poster也有很多有意思的，由於篇幅所限也不講了。。

最後八卦一下：第一天午飯的時候同一桌有一個在高通做Snapdragon GPU的中國人，我特別想私下問一下他認不認識 @空明流轉大大，可惜後來一直沒有逮到機會。。還逮到了Rex Computing 的兩隻敘了敘舊，他們最近又要搞個大新聞。。

問得真快……

正在看，晚點再來裝逼。

只說一句，IBM，逆超線程，強，無敵。

8-26更…………早看完了，但這幾天忙的要死。今天美好的周末，開黑又湊不齊五仁，開不起車，只能吹牛。

從工業屆的角度來看，hotchip的重要性比isca，HPCA之類更重要，因為這本身就是工業屆秀肌肉的一場狂歡，和學術界高瞻遠矚的論（cui）證（niub）相比，拿出來都是實實在在的炸彈，「talk is cheap，show me the chip」，

第一節。

首先是看到飛騰在hotchip裝逼的消息，但他沒發論文，不在這裡談了，另起一帖評價評價。

http://www.zhihu.com/question/48948852/answer/119076778

第二節

如果INTEL是CPU領域荼毒生靈的惡魔，那IBM，就是藐視眾生的創世神。神之九代目，P9現身。

120MB的eDRAM做的cache……

統一PCIe4，CAPI，nvlink，SMP多種標準的的25G serdes……

還有7TB帶寬的片上互聯……說到互聯，我也是專家的專家了，可是看到IBM佔全晶元面積1/6面積（約100mm2），還有下圖這樣故意show出來恐嚇全世界的17層metal走線……再仔細一算，匯流排位寬1024……

神不缺錢。

好想獻上我的膝蓋和簡歷……

但這都不算什麼，你見過兩個單線程核拼接成一個雙線程的核么？共享前端，獨享後端。

在知乎搜索一下「逆多線程」就能看到了，還有神奇的VISC。

雖然不全部是這樣，但IBM的CPU已經有這樣的雛形了。一個SMT8的CPU，中間劈開，就是兩個SMT4的CPU，想要重核可以有重核，想要核數量可以有核數量。想一想都覺得屌。

當然，使用上好像有些限制，編譯器和OS應該不能很好利用不同的SMT數量，SMT4建議是LINUX，SMT8僅建議PowerVM。

但即使這樣，這種架構也可以說是近十年在處理器架構上非常重大的革新了，不愧是神。

第三節

摩爾定律並不會停止，即使工藝演進在變緩，東方不亮西方亮，封裝，會繼續延續摩爾定律的速度。

3D封裝……那是扯淡，散熱散不出去。2.5D封裝，在封裝的支撐範圍內，將不同尺寸，不同工藝，不同功能的晶元集合到一起，是可以產生化學變化的。

這次HOTCHIP有五篇、五篇、五篇講到了這個故事，還沒明白的ICer，只會被摩爾給抹殺啊。

Tutorial的hynix，用interposer的TSV互聯方式，用類似serdes的介面將SOC和HBM以高帶寬集成到一起的方案，隨後第二篇是Nvidia，馬上就用Pascal的實際產品證明這種結構的強大，這個應該是NV和Hynix在samsung一起聯合成果。

馬上samsung就宣傳了該技術，並且提出該技術在mobile可用。

然後是TSMC，是基於RDL的fanout技術，TSMC還一併展示了互聯IO的設計技術，非常不錯，類DDR介面，256bit位寬，2G速率，即512Gbps的帶寬，功耗非常小。小道消息，TSMC的方案是和APPLE合作的，那麼下一代iphone也許能見到這種黑科技哦，DRAM不用在背在CPU的背上（POP封裝），散熱問題大幅緩解，感覺能再加好多功能了。

還有就是xilinx，也花了大量篇幅來講故事，還特意畫了一張表來比較MCM/fanout/interposer的差異和優劣，就不貼圖了。

本來還等著AMD，但是農企他很懶，這次什麼信息都沒有透露……

第四節

待續

skl zen power9 m1

不過其實都沒有太多細節