如何評價 Tegra K1 64 Denver CPU 的體系結構設計?

昨天 hot chips 會議上 NVIDIA 首次公開了 Denver CPU 的詳細資料。
白皮書:– NVIDIA Charts Its Own Path to ARMv8
一些鏈接:
Nvidia claims Haswell-class performance for Denver CPU core
Nvidia details 64-bit Denver Tegra K1, claims Haswell-class performance for first 64-bit Android chip

要點:
- 7-way superscalar in-order execution
- Binary transalation from ARMv8 instructions to native Denver instructions
- Dynamic code optimization
- 128 MB code cache in main memory
- Transmeta/Itannium yesterday once more

廠家發布的跑分結果只能 take with a grain of salt, 你們懂的,不然 Intel 的 IGP 早把 AMD 和 NVIDIA 的顯卡轟成渣渣, Intel 的 SOC 早把 ARM 打回老家了。


其實沒有什麼神秘的,核心的思想和專利都來自全美達 Transmeta (Transmeta licenses low-power tech to Nvidia),是這一家偉大公司的寶貴遺產。詳細的介紹可以參見此篇 Paper:washington.edu 的頁面。

Denver 的主要改進(這兒只提公開的資料:hotchips.org 的頁面) 包括:1)巨大的 L1C Cache,2)更寬的架構(7發射),3)引入 HW Decoder。

說句題外話,全美達之所以失敗,是因為他太超前了,而絕不是因為其技術上有任何問題,VLIW+DCO 比起 OoO 並沒有任何劣勢。

-----------------------------------
2014-08-19 更新

有人問既然 VLIW 的安騰和全美達都失敗了,那為什麼還要再次挑戰這個看似毫無優勢的設計方向呢?我的看法如下:

  1. 相較於 OoO,VLIW 的硬體更為簡單,更多的面積可以用來設計更寬的架構和更大的緩存,或者乾脆為 SoC 中的 GPU (對 NVIDIA 來說尤為重要)以及 Accelerator 換取更大的空間。
  2. 相較於 OoO,VLIW 在 Perf/Watt 上更有優勢。(見表4:http://www.lanl.gov/radiant/pubs/sss/sc2002-sss.pdf)

換句話說, Denver 的架構幾乎就是為了移動設備而生的。


VLIW+JIT,以前從未有人這麼做過。依我看這 JIT 換掉了編譯時指派指令,會比老的 VLIW 模式更高效,但是是否能戰翻傳統的超標量很難說:以前的 A 卡也是 VLIW+JIT(別笑,顯卡驅動就是個 JIT 編譯器)但是仍然有大量的性能損耗。


推薦閱讀:

TAG:中央處理器(CPU) | NVIDIA英偉達 | NVIDIATegra | TegraK1 |