HotChips 28 有哪些看點?


不知道為什麼夏總的答案被摺疊了,而且原因還是政治敏感?。。。額,隨手寫一些散亂的個人想法,拋磚引玉,希望能跟更多同行們交流想法 :)

主要還是說Skylake Zen Power9 三星的M1吧。。。上周在組會上也是跟大家討論了這四個CPU。這一屆好像所里沒有人蔘會,沒有early access的密碼,感謝組裡小夥伴和華為的同行發來的資料包。

1. Skylake

Intel仍然是一騎絕塵的,他家的PPT肯定是大家都要看的。

核心微結構真心是改到頭了,這一代也都是一些tweaks,看來除非thread speculation或者dataflow之類的激進想法在硬體或者軟體上爆發,不然單線程性能也就是這樣子了。。。eDRAM as Memory Side Cache這個想法有意思,看上去跟eDRAM直接作為L4 cache的方案有些區別。感覺這一個點的亮眼程度超過core的改進。

對比前代兩個有意思的變化:

1)guided autonomous control,把power control基本上從OS層面移回了硬體層面

2)號稱大幅改良的PMU,這個對於大眾用戶來說沒有任何用處,但是對於做性能開發、搞研究的人來說真是太有用了,採樣計數器從3個漲到4個,號稱覆蓋面和採樣質量都比以前好了,還引入了一個新的top-down分析方法,必須要好好研究下。現在Intel好像還沒有出skylake的Xeon,只能在自己的電腦上琢磨下這個PMU了。

2. ZEN

回到了強力的亂序多發射核心 + 2way SMT支持的路子,很多核心結構參數跟Haswell什麼的一模一樣,192 ROB,72/44的load store queue,基本資源上來了,其他的一些細節設計不出問題的話應該至少可以跟Haswell抗衡了,開個玩笑,AMD是不是剛好自己內部做評估的時候跟Intel測出來的最優值是一樣的啊?

Bulldozer的設計非常大膽,現在把這個shared front-end的想法放棄了,重新回到傳統路徑上來。其實挺讓人泄氣的,做來做去,最終還是覺得類似Intel這樣的結構保險?是不是真的除了標準的亂序多發射 + SMT以外,沒有更好的平衡點了呢?真的不希望看到一種結構最後一統江山啊。 這一次NVIDIA的VLIW + DBT的Denver 2也公布了,但是PPT上並沒有講多少新東西。作為看熱鬧不怕事大的學術圈吃瓜群眾,還是希望業內多出一些不一樣的路子,到了最後都是各家在標準亂序多發射的框架下調參數比大小,沒激情呀。。。

3. IBM Power9

7TB/s的片上通訊帶寬OMG。。。。。。。。。。

其他回答提到Power9的拆分設計,其實這個設計在Power7的時候就已經有了(不確定Power5有沒有?),同一個核既有強大的亂序多發射又有多路SMT支持,核心內部的各種資源都小心翼翼地做了靜態切分/動態切分/物理副本,很有參考意義,同時IBM也是很早地開始做SMT QoS了,連QoS的方案都換過一茬了,Intel在這方面的積累可能未必強於IBM呢。

被 @Sean 提醒了一下,POWER9的另一大亮點是集成了各種可以外鏈加速器的埠/協議,猛,就一個字。

順帶吐槽一下Power7,Power8在IBM內部Journal上發的論文,一方面乾貨滿滿,另一方面,真的是可讀性太差了啊。。。從來沒有讀文章這麼痛苦過啊,一篇論文三十頁看了一個多星期還沒看完,老是看上兩三頁就忍不住犯困。。。

4. 三星的M1

三星的第一個in-house自研核,前後三年才完成。同樣是自研核的首秀,同樣是基本屬於follower的情況,覺得單就show的層面來說做的比當初飛騰明顯要好,但是飛騰實際做的事真不一定比他家差,嘿嘿:)

從M1的結構上看,基本上就是桌面CPU各種規格的縮小版,使用的也都是一些已經被實踐過的設計,適合抱著了解M1的目的去看,就不要和上面幾家Hotchips的常客大佬去對比了。。。不知道M1和後繼產品會和蘋果的A系爆發出怎樣的火花。


自己挖的坑還是要自己填啊 &> &< 虧我還是去了現場的。。

@迪迦奧特曼 兄已經把幾個主流大廠的處理器說了,我就補充一下其他有意思/重要的。

其實這次 HotCHips 我主要是奔著第一個tutorial session去的,也就是future memory technology。之前看到主講人的名單就知道會有一場關於 HMC (Hybrid Memory Cube)和 HBM (High Bandwidth Memory)的撕逼,很期望雙方在撕逼中多爆點料。這裡先普及一下,HMC 和 HBM 都是針對解決現在內存問題開發的下一代內存技術。其共同點都是採用2.5D 的結構,也就是把幾個DRAM die 像幾張紙用訂書機一樣訂起來,層與層之間通過 TSV (thru silicon via)傳遞信號,最底層則通過一個Silicon Interposer 和其他晶元(如CPU)連接。(下面這個HBM 的圖比較直觀)

相比傳統 DRAM , HMC 和 HBM 都有更高的存儲密度,更大的帶寬以及更低的功耗。HMC 是由 Micron 主力研發的,介面技術用的是SerDes,目前應用在了 Intel 的 Knights landing 裡面。HBM 由 SK Hynix, AMD 等多家廠商參與,介面還是JEDEC,早已應用在高端顯卡里。雙方為了爭奪「未來內存技術」這項桂冠在各種場合撕得不亦樂乎。HMC 的賣點在於更高的帶寬(&>= 320GB/s)以及簡單的介面技術。HBM 的賣點在於便宜,以及可定製化的logic interposer (有助於實現各種 processing in memory)。

在去年關於內存技術的專題會議 MEMSYS 上,雙方就撕過一次了。我本來指望這次 HotChips 能聽點些新鮮的,可惜並沒有猛料。。問到關鍵問題(比如關鍵指標)的時候雙方還是守口如瓶諱莫如深。。

當然,好消息還是有的,3DX Point 年底就要投產了,這絕對是一個game changer。但我問了Micron的人,他們說還做不到比SSD 便宜,所以指望它普及應該還有一段時間。

本次 HotChips 的另外一大亮點就是 Deep Learning 了。話說最近體系結構的會議到處充斥著 neural network。。 我數了一下至少有6 個 talk 講的是和 deep learning 有關的。NVDIA 家的兩個GPU就不用說了。有3 家做 DSP 給 deep learning 加速 的,他們的賣點是說 inference 的時候GPU效率不如 DSP 高,而且DSP 可以做的很小很便宜功耗很低,非常適用於已經有訓練好了的模型的嵌入式平台(比如無人駕駛)。值得一提的是清華大學和斯坦福大學的聯合創業公司DeePhi,他們用FPGA給deep learning加速,賣點是FPGA的靈活性能適應不斷發展的DL技術,以及用 deep compression 以減小對內存帶寬的需求。

學術界僅有的兩個talk都是關於many core的。其中有Princeton 的 Piton 和 UCDavis 的 KiloCore。Piton 早就在 @迪迦奧特曼 的推薦下拜讀過他們在ASPLOS上發的paper了,所以我也不陌生。第一天午飯的時候看見一個穿了Piton T恤的小帥哥就知道他是Princeton的,由於來HotChips的學生並不多,我倆簡直一見如故聊得還挺開心,後來他還送了我兩根OpenPiton的圓珠筆 LOL。KiloCore我之前在 如何看待 UC Davis新發布的低功耗 1.78GHz 千核 CPU KiloCore ? - Sean 的回答 這個回答中已經評價過了,我當時說最大的問題就是怕內存帶寬不夠,所以在現場我也問了這個問題,主講人也承認內存帶寬確實跟不上。。

兩個 keynote speech 分別是微軟的 Hololens 和谷歌的無人車,都很有意思。尤其是谷歌無人車的talk,讓我看到了我們距離真正的無人駕駛還有多遠,還有哪些挑戰,硬體層面還有哪些需求等等。十分開眼界,也讓我更加期待無人駕駛的未來。

最後一天壓軸的3個Talk 分別是Intel,IBM 和 AMD。三家裡面我覺得最有亮點的是 IBM 的 Power 9。(可能和我做的HPC的最相關吧:) Power 9 主打對heterogeneous computing的支持。支持NVLink,以及自家的開放協議介面 CAPI (最高300GB/s的雙工帶寬),內部switch 7TB/s的帶寬。。因此Power 9 可以靈活部署各種加速器(比如deep learning的)並且能提供很好的帶寬支持,這在HPC領域還是很有前景的。

當然還有很多有意思的Talk由於篇幅所限就不在這裡講了。

會場外面做產品展示的公司和poster也有很多有意思的,由於篇幅所限也不講了。。

最後八卦一下:第一天午飯的時候同一桌有一個在高通做Snapdragon GPU的中國人,我特別想私下問一下他認不認識 @空明流轉 大大,可惜後來一直沒有逮到機會。。還逮到了Rex Computing 的兩隻敘了敘舊,他們最近又要搞個大新聞。。


問得真快……

正在看,晚點再來裝逼。

只說一句,IBM,逆超線程,強,無敵。

8-26更…………早看完了,但這幾天忙的要死。今天美好的周末,開黑又湊不齊五仁,開不起車,只能吹牛。

從工業屆的角度來看,hotchip的重要性比isca,HPCA之類更重要,因為這本身就是工業屆秀肌肉 的一場狂歡,和學術界高瞻遠矚的論(cui)證(niub)相比,拿出來都是實實在在的炸彈 ,「talk is cheap,show me the chip」,

第一節。

首先是看到飛騰在hotchip裝逼的消息,但他沒發論文,不在這裡談了,另起一帖評價評價。

http://www.zhihu.com/question/48948852/answer/119076778

第二節

如果INTEL是CPU領域荼毒生靈的惡魔,那IBM,就是藐視眾生的創世神。神之九代目,P9現身。

120MB的eDRAM做的cache……

統一PCIe4,CAPI,nvlink,SMP多種標準的的25G serdes……

還有7TB帶寬的片上互聯……說到互聯,我也是專家的專家了,可是看到IBM佔全晶元面積1/6面積(約100mm2),還有下圖這樣故意show出來恐嚇全世界的17層metal走線……再仔細一算,匯流排位寬1024……

神不缺錢 。

好想獻上我的膝蓋和簡歷……

但這都不算什麼,你見過兩個單線程核拼接成一個雙線程的核么? 共享前端,獨享後端。

在知乎搜索一下「逆多線程」就能看到了,還有神奇的VISC。

雖然不全部是這樣,但IBM的CPU已經有這樣的雛形了。一個SMT8的CPU,中間劈開,就是兩個SMT4的CPU,想要重核可以有重核,想要核數量可以有核數量。想一想都覺得屌。

當然,使用上好像有些限制,編譯器和OS應該不能很好利用不同的SMT數量,SMT4建議是LINUX,SMT8僅建議PowerVM。

但即使這樣,這種架構也可以說是近十年在處理器架構上非常重大的革新了,不愧是神。

第三節

摩爾定律並不會停止,即使工藝演進在變緩,東方不亮西方亮,封裝,會繼續延續摩爾定律的速度。

3D封裝……那是扯淡,散熱散不出去。2.5D封裝,在封裝的支撐範圍內,將不同尺寸,不同工藝,不同功能的晶元集合到一起,是可以產生化學變化的。

這次HOTCHIP有五篇、五篇、五篇講到了這個故事,還沒明白的ICer,只會被摩爾給抹殺啊。

Tutorial的hynix,用interposer的TSV互聯方式,用類似serdes的介面將SOC和HBM以高帶寬集成到一起的方案,隨後第二篇是Nvidia,馬上就用Pascal的實際產品證明這種結構的強大,這個應該是NV和Hynix在samsung一起聯合成果。

馬上samsung就宣傳了該技術,並且提出該技術在mobile可用。

然後是TSMC,是基於RDL的fanout技術,TSMC還一併展示了互聯IO的設計技術,非常不錯,類DDR介面,256bit位寬,2G速率,即512Gbps的帶寬,功耗非常小。小道消息,TSMC的方案是和APPLE合作的,那麼下一代iphone也許能見到這種黑科技哦,DRAM不用在背在CPU的背上(POP封裝),散熱問題大幅緩解,感覺能再加好多功能了。

還有就是xilinx,也花了大量篇幅來講故事,還特意畫了一張表來比較MCM/fanout/interposer的差異和優劣,就不貼圖了。

本來還等著AMD,但是農企他很懶,這次什麼信息都沒有透露……

第四節

待續


skl zen power9 m1

不過其實都沒有太多細節


推薦閱讀:

CS224N Lecture3 筆記
【原著解讀】丹尼特的《心靈的演化》:兩種奇怪的倒置推理
人類對人工智慧的嚮往和幻象由來已久,那麼,這次有什麼不同?——Yann LeCun上海紐約大學講座及座談精華
CS224N Lecture2 筆記

TAG:中央處理器CPU | 科研 | 計算機科學 |