英伟达发布Blackwell Ultra架构：能效比提升50倍，刷新行业纪录

（问题）随着大模型应用从训练走向规模化推理，算力供给的约束正从“算得快”转向“算得省”。一上，推理请求多行业快速增长，尤其是编程辅助、企业知识库问答、客服与自动化代理等场景，对长上下文、低时延和多步推理能力提出更高要求；另一上，数据中心电力、散热和运维成本上升，使得“单位能耗可处理的信息量”成为衡量芯片与系统竞争力的关键指标。业内通常以每瓦可处理的Token数量（吞吐量/功耗）来衡量推理能效，数值越高，意味着同等电力预算下可承载更多请求，整体成本更可控。（原因）英伟达在最新披露中将突破归因于系统级架构升级与软硬协同优化。其Blackwell Ultra平台以GB300 NVL72为代表，通过高速互联技术把72个GPU整合为统一的计算单元，互联带宽达到130TB/s。相较上一代以较少芯片规模构建的系统形态，更大规模的互联与更高带宽有助于减少跨设备通信瓶颈，提升大模型在推理阶段尤其是长上下文与注意力计算中的效率。此外，平台引入新的低精度数值格式与计算路径，以更高效的数值表达完成推理计算，在保证可用精度的前提下降低计算与访存开销。除硬件升级外，面向推理的软件栈也在持续演进，通过推理引擎与编译、调度层优化，提升混合专家模型等复杂模型结构的吞吐表现，并在低时延负载上实现继续加速。（影响）从行业层面看，能效与成本的显著改善将直接改变大模型推理的经济账。英伟达称，在涉及的模型测试中，Blackwell Ultra每兆瓦吞吐量较Hopper提升约50倍，每百万Token成本降至约35分之一；与上一代Blackwell平台相比，在长上下文任务上也进一步降低Token成本，并提升注意力处理速度。若上述指标在更广泛的业务场景中得到验证，意味着同样规模的数据中心可承载更高并发的在线服务，有助于推动长上下文检索、跨代码库分析、复杂工作流代理等应用从试点走向普及。市场研究与行业报告亦显示，与软件开发相关的智能查询需求增长迅速，该类任务往往需要模型持续保持上下文并进行多步推理，计算结构更复杂、资源占用更高，因而对系统互联与推理效率更敏感。硬件平台的能效进步将加快相关产品与服务的商业化落地，也将进一步推高算力基础设施的迭代节奏。（对策）面对推理成为主战场的趋势，企业与机构在建设算力基础设施时需从“单卡性能”转向“系统效率”，统筹考虑互联带宽、软件栈适配、模型结构与业务负载特征。一是以应用需求为牵引，针对长上下文、低时延、多并发等典型负载进行基准测试与容量规划，避免仅以理论峰值做采购决策。二是强化软硬协同，通过推理框架、编译优化、量化与稀疏化等手段提升单位资源产出，降低整体拥有成本。三是把能耗与电力可得性纳入核心指标，围绕电力、制冷、机房空间等约束开展系统工程设计，提高数据中心可持续运营能力。对产业链而言，上游芯片与系统厂商的迭代也将倒逼中游云服务与下游应用在模型与工程侧提升，形成以成本、能效为导向的新竞争维度。（前景）英伟达同时预告下一代Rubin平台，称其每兆瓦吞吐量预计在Blackwell基础上再提升约10倍。总体看，推理基础设施的技术路线将继续沿着更高带宽互联、更高效数值格式、更强软件栈与更深度系统集成演进。在需求侧，企业级代理、代码与知识管理、智能客服与办公自动化等将成为拉动推理增长的重要力量；在供给侧，能效提升将成为释放应用规模的关键杠杆。但也需看到，指标提升能否在复杂业务中稳定兑现，还取决于模型适配、软件成熟度以及数据中心工程能力等因素。未来一段时间，围绕“算力可用、成本可控、能耗可管”的综合能力建设，将决定大模型应用能走多深、走多远。

算力基础设施的每一次升级都在拓展AI技术的应用边界。从Hopper到Blackwell，再到即将推出的Rubin，英伟达的进步不仅体现在性能提升上，更展现了行业对能效、成本与规模平衡的持续探索。能效的大幅改善为AI从实验室走向产业落地提供了坚实基础，但如何将算力优势转化为实际价值，仍是整个行业需要面对的长期课题。