trendforce集邦咨询最新ai server 报告

2026年3月18日的产业洞察里，TrendForce集邦咨询最新AI Server报告说，因为Google和Amazon这些CSP（大型云端服务供应商）在自研芯片上越发力道，NVIDIA在今年的GTC大会上就把重心放到了各领域的AI推理应用上。以前他们都在盯着云端AI训练市场，这次可不一样。NVIDIA为了这个市场，把GPU、CPU还有LPU都拉出来，分别去抢AI训练和AI推理这两块大蛋糕。再加上他们的Rack整合方案，也能把供应链给带动起来。TrendForce集邦咨询还预估说，ASIC AI Server的出货比例会从2026年的27.8%涨到2030年的近40%。英伟达为了保住老大的位置，就使劲儿推GB300、VR200这些整柜式方案。这次GTC上的Vera Rubin系统就很垂直，有七块芯片和五款机柜。TrendForce看了供应链的进度，估计2026年第二季的存储器厂就能给Rubin GPU供HBM4了，这样NVIDIA就能在第三季度把Rubin芯片发出去。GB300 Rack在2025年第四季已经取代GB200了，2026年的出货占比差不多能到80%。VR200 Rack大概在2026年第三季度末能开始出货，具体还得看ODM那边的进度。再说说推理这块儿。AI从生成跨入代理模型时代后，在Decode阶段老是有延迟和带宽瓶颈。英伟达就把Groq团队的技术拿过来用了，推出了Groq 3 LPU专门干低延迟推理这活儿。单颗LPU有500MB SRAM，一整柜就能搞到128GB。不过这存储器装不下Vera Rubin那么大的参数和KV Cache啊。英伟达这回就搞了个叫“解耦合推理”的架构——也就是Disaggregated Inference——用一个叫Dynamo的AI工厂操作系统把推理流水线分成了两段。处理代理型AI的时候，需要做大量数学运算和存KV Cache的Pre-fill和Attention阶段，就扔给高性能的Vera Rubin去跑；而Decode和Token生成这种对带宽和延迟要求高的阶段，直接卸载到那个扩充了存储器的LPU机柜上去。至于供货方面，第三代Groq LP30已经在Samsung那儿全面量产了，2026年下半年就能发。以后在下一代Feynman架构里估计还会有性能更强的LP40芯片。本文转自TrendForce集邦咨询提供的研报内容或分析资料。