trendforce集邦咨询最新ai server 报告

2026年3月18日的产业洞察里,TrendForce集邦咨询最新AI Server报告说,因为Google和Amazon这些CSP(大型云端服务供应商)在自研芯片上越发力道,NVIDIA在今年的GTC大会上就把重心放到了各领域的AI推理应用上。以前他们都在盯着云端AI训练市场,这次可不一样。NVIDIA为了这个市场,把GPU、CPU还有LPU都拉出来,分别去抢AI训练和AI推理这两块大蛋糕。再加上他们的Rack整合方案,也能把供应链给带动起来。TrendForce集邦咨询还预估说,ASIC AI Server的出货比例会从2026年的27.8%涨到2030年的近40%。 英伟达为了保住老大的位置,就使劲儿推GB300、VR200这些整柜式方案。这次GTC上的Vera Rubin系统就很垂直,有七块芯片和五款机柜。TrendForce看了供应链的进度,估计2026年第二季的存储器厂就能给Rubin GPU供HBM4了,这样NVIDIA就能在第三季度把Rubin芯片发出去。GB300 Rack在2025年第四季已经取代GB200了,2026年的出货占比差不多能到80%。VR200 Rack大概在2026年第三季度末能开始出货,具体还得看ODM那边的进度。 再说说推理这块儿。AI从生成跨入代理模型时代后,在Decode阶段老是有延迟和带宽瓶颈。英伟达就把Groq团队的技术拿过来用了,推出了Groq 3 LPU专门干低延迟推理这活儿。单颗LPU有500MB SRAM,一整柜就能搞到128GB。不过这存储器装不下Vera Rubin那么大的参数和KV Cache啊。 英伟达这回就搞了个叫“解耦合推理”的架构——也就是Disaggregated Inference——用一个叫Dynamo的AI工厂操作系统把推理流水线分成了两段。处理代理型AI的时候,需要做大量数学运算和存KV Cache的Pre-fill和Attention阶段,就扔给高性能的Vera Rubin去跑;而Decode和Token生成这种对带宽和延迟要求高的阶段,直接卸载到那个扩充了存储器的LPU机柜上去。 至于供货方面,第三代Groq LP30已经在Samsung那儿全面量产了,2026年下半年就能发。以后在下一代Feynman架构里估计还会有性能更强的LP40芯片。 本文转自TrendForce集邦咨询提供的研报内容或分析资料。