如何評價 Tegra K1 64 Denver CPU 的體系結構設計？

11-30

昨天 hot chips 會議上 NVIDIA 首次公開了 Denver CPU 的詳細資料。
白皮書：– NVIDIA Charts Its Own Path to ARMv8
一些鏈接：
Nvidia claims Haswell-class performance for Denver CPU core
Nvidia details 64-bit Denver Tegra K1, claims Haswell-class performance for first 64-bit Android chip

要點：
- 7-way superscalar in-order execution
- Binary transalation from ARMv8 instructions to native Denver instructions
- Dynamic code optimization
- 128 MB code cache in main memory
- Transmeta/Itannium yesterday once more

廠家發布的跑分結果只能 take with a grain of salt, 你們懂的，不然 Intel 的 IGP 早把 AMD 和 NVIDIA 的顯卡轟成渣渣， Intel 的 SOC 早把 ARM 打回老家了。

其實沒有什麼神秘的，核心的思想和專利都來自全美達 Transmeta (Transmeta licenses low-power tech to Nvidia)，是這一家偉大公司的寶貴遺產。詳細的介紹可以參見此篇 Paper：washington.edu 的頁面。

Denver 的主要改進（這兒只提公開的資料：hotchips.org 的頁面）包括：1）巨大的 L1C Cache，2）更寬的架構（7發射），3）引入 HW Decoder。

說句題外話，全美達之所以失敗，是因為他太超前了，而絕不是因為其技術上有任何問題，VLIW+DCO 比起 OoO 並沒有任何劣勢。

-----------------------------------
2014-08-19 更新

有人問既然 VLIW 的安騰和全美達都失敗了，那為什麼還要再次挑戰這個看似毫無優勢的設計方向呢？我的看法如下：

相較於 OoO，VLIW 的硬體更為簡單，更多的面積可以用來設計更寬的架構和更大的緩存，或者乾脆為 SoC 中的 GPU （對 NVIDIA 來說尤為重要）以及 Accelerator 換取更大的空間。
相較於 OoO，VLIW 在 Perf/Watt 上更有優勢。(見表4：http://www.lanl.gov/radiant/pubs/sss/sc2002-sss.pdf）

換句話說， Denver 的架構幾乎就是為了移動設備而生的。

VLIW+JIT，以前從未有人這麼做過。依我看這 JIT 換掉了編譯時指派指令，會比老的 VLIW 模式更高效，但是是否能戰翻傳統的超標量很難說：以前的 A 卡也是 VLIW+JIT（別笑，顯卡驅動就是個 JIT 編譯器）但是仍然有大量的性能損耗。