英伟达最近在加州圣何塞举办的GTC 2026大会上放了个大招,直接公布了一款全新的88核Vera数据中心CPU,性能比标准CPU强了足足50%,这一下把风头全抢了,把传统的英特尔和AMD都给逼急了。 为了做到这一点,英伟达给这款芯片的Olympus内核做了不少功夫,把每时钟周期能执行的指令数(IPC)提升了1.5倍。更夸张的是,他们还搞出了一种创新的高带宽设计,声称现在市场上最快的单线程性能都在他们手里。 除了硬件性能猛增,英伟达还推出了一个新的机架架构。在这个架子里塞了256颗液冷的Vera CPU,专门用来跑那些以CPU为核心的活儿。他们说这样能让CPU的吞吐量直接翻六倍,要是拿来跑智能体AI这种任务,速度更是直接翻倍。 这波操作很明显就是要正式杀入CPU直销市场了,跟英特尔、AMD打擂台,还要去碰一下那些用Arm芯片做定制的超大规模云厂商的饭碗。其实这事儿也不意外,因为他们之前早就跟Meta合作过了,准备把纯CPU系统放到Meta的机房里用。 不光是卖给别人,他们还准备把这些CPU用在自家以GPU为主的平台上,比如之前说过的Vera Rubin那个平台。你想想看,英伟达早在2022年的GTC上就搞出了第一代Grace CPU,当时就已经埋下了要在更广泛的市场上竞争的伏笔了。 这一代Vera是个啥?它要把游戏CPU的高单线程性能、云服务器的高核心数还有移动端的低功耗这些优点全揉在一块儿,专门用来加速那些智能体AI、训练和推理这类活计。比如Python代码执行、SQL查询和编译这些活儿。 英伟达吹嘘说,相比起普通的x86竞品,他们的单沙箱性能能提高1.5倍,每核的内存带宽能翻三倍,能效还能翻倍。为了实现这个目标,他们硬是把处理器做成了88核144线程的大结构,比第一代Grace的72核强了不少。 新内核的IPC吞吐量更是猛增1.5倍——要知道别人家升级通常也就是个位数或者十几二十个百分点的提升,这次可是直接来个大跃进。上一代Grace用的是Arm自家的Neoverse公版内核,这次的Olympus可是英伟达自己独家设计的——这说明他们在参考架构上动了很大的手术。 这颗基于Arm v9.2-A的Olympus内核用的是一种叫空间多线程的技术。它不会像传统的同步多线程(SMT)那样轮流使用执行单元、缓存和寄存器文件这些硬件资源。相反,它把这些关键模块在物理上隔离开了,让同一核心上的两个线程不会互相抢东西。 这种做法跟传统SMT那种时间片轮转的机制完全不一样——后者其实还是轮流干活儿。空间多线程是在一个执行单元闲着的时候才会去取另一个线程的指令来干——这样能提升指令级并行度(ILP)、吞吐量和性能的可预测性。说白了就是让两个线程在一个核心上真正地同时跑起来了。 这对多租户环境来说简直是个大福音。英伟达还把所有的88个核心都放在了一个区域里(没有所谓的NUMA问题),这就避免了因为延迟问题引起的麻烦。比起现在那些高核心数的x86竞品来说,这确实是个大优势。 至于怎么做到这么顺畅的呢?英伟达还没完全公开细节。不过可以肯定的是,芯片里用了新一代的可扩展一致性互联(SCF)技术。这东西是基于Arm之前用的CMN-700一致性网格网络搭建的。 Arm现在最新的方案已经升级到了Neoverse CMN S3网格了,Vera大概率是用了这个或者它的变体版本。这个网格网络能给所有核心提供很大的聚合内存吞吐量——当有些核心需要更多带宽的时候表现特别好。 Grace原来支持的网格内存吞吐量是546 GB/s,平均每核也就是7.6 GB/s左右。Vera这一项直接翻了个倍变成1.2 TB/s——这全靠那个1.5 TB SOCAMM LPDDR5模组撑着(容量也翻了三倍)。满负载的时候平均每核能达到13.6 GB/s。 更绝的是当负载不均匀的时候这个架构也能撑得住——它能让任意一个单核心最高达到80 GB/s的吞吐量——对那些需要超多带宽的任务来说简直是如虎添翼。 它的执行路径也挺有看点:有个10发射的指令解码单元、每个周期能做两次预测的神经分支预测器、还有专门优化过的图数据库分析预取引擎,以及针对PyTorch优化过的指令缓冲区。