(问题)随着大模型从“能生成”走向“能执行”,产业正迎来以智能体为代表的新阶段:模型不再仅回答问题,而是被部署为可调用工具、规划任务、持续迭代的工作系统。
在这一过程中,推理环节的计算量、时延与成本迅速上升,成为制约应用落地的关键瓶颈。
黄仁勋在大会主题演讲中提出,Token是衡量与驱动这一轮变革的“基础单位”,从训练到推理、从成本到吞吐,产业竞争将更多围绕“每单位Token的效率”展开。
(原因)一方面,模型规模与能力提升带动推理频次激增,应用从检索问答扩展到客服外呼、代码生成、内容生产、工业质检、科学计算等更广场景,推理不再是训练后的“附属环节”,而是持续消耗算力的主战场。
另一方面,智能体需要多轮思考、工具调用与上下文维护,计算路径更长、并发更高,对芯片互联带宽、内存吞吐与能效提出更苛刻要求。
黄仁勋称,过去两年算力需求出现数量级跃升,背后反映的是产业从“训练驱动”向“推理驱动”的结构性变化。
(影响)围绕上述变化,英伟达在本届大会集中推出面向推理与智能体的新硬件与平台组合。
其一,公司发布由多款芯片与系统构成的Vera Rubin计算平台,并推出全新Vera CPU等产品,强调在内存带宽、能效与AI任务性能上的面向性优化。
其二,英伟达介绍新一代机架级系统NVL72,通过高速互联技术将多颗GPU与CPU进行更紧密的系统级协同,指向更高的推理吞吐与更低的单位Token成本,并将其定位为面向推理的关键产品形态。
其三,在软件与图形领域,英伟达发布DLSS 5神经渲染技术,将传统图形管线与生成式模型进一步融合,试图把“实时生成能力”延伸至消费级与专业可视化领域,拓展AI计算需求的外延。
其四,英伟达还宣布推出Groq 3语言处理器(LPU)并计划在年内出货,意在为语言类推理负载提供差异化算力选择,完善从通用GPU到专用加速器的产品谱系。
(对策)从产业应对看,算力供给侧需要在“更强”之外强调“更省”:通过架构升级、互联技术演进、软硬协同与数据中心级系统设计,压降推理时延与能耗,提升单位电力所能支撑的Token产出;同时,应用侧需优化模型与工程实践,包括混合专家模型等结构选择、推理加速、上下文管理与任务拆解,以降低智能体运行成本。
对企业而言,围绕推理的系统能力将成为新护城河;对行业而言,算力采购将从单机指标转向系统效率与全生命周期成本核算。
黄仁勋在演讲中以“个人操作系统”作比喻,称未来智能体将以更贴近个人与组织工作流的形态运行,体现出公司对应用端渗透的判断。
(前景)黄仁勋预计,到2027年,Blackwell与Vera Rubin等相关产品的采购需求规模有望达到万亿美元级。
这一表态释放出两个信号:其一,全球对AI基础设施的投入仍处于上升通道,尤其是推理侧的增量可能超预期;其二,竞争焦点将从单一芯片性能扩展至平台化能力与生态黏性。
值得注意的是,英伟达在演讲中强调CUDA生态已走过20年,形成从开发工具、软件库到硬件平台的闭环,这也使其更可能在“推理规模化”阶段继续放大先发优势。
但与此同时,推理成本、供电与散热、数据安全与合规等因素,亦将成为决定行业扩张速度的重要约束。
从图形处理器到AI计算霸主,英伟达的转型之路印证了技术积累与前瞻布局的重要性。
在算力成为核心生产力的时代,其创新成果或将重新定义行业竞争格局。
然而,如何平衡技术垄断与生态开放,仍是全球产业链需要共同面对的课题。