当前,全球产业正加速进入以大模型与推理应用为牵引的新一轮算力基础设施扩张周期。随着智能体逐步具备推理、规划与执行能力,推理负载从“偶发调用”走向“高频常态”,算力需求呈现规模化、持续化与低时延等特征。业内普遍认为,决定应用落地速度与成本边界的关键,已不再仅是训练能力,更于推理效率、能耗控制与工程化交付能力。 问题:推理规模快速扩张带来成本与交付双重压力 与训练相比,推理更贴近业务一线,通常具备高并发、强实时、持续运行等特点。一上,单次调用成本(尤其以token计量的生成成本)直接影响企业能否长期使用;另一方面,数据治理、机房能耗与散热、跨区域交付以及合规要求,也对基础设施提出更系统的挑战。对超大规模云服务商及强调数据主权的机构来说,如何较短周期内完成从机柜到整厂的部署,并在可控能耗下稳定输出算力,成为必须解决的现实难题。 原因:技术迭代与应用形态变化共同推高“系统级”需求 需求跃升既来自加速计算平台持续升级,也与应用从“问答式工具”向“流程型智能体”演进密切涉及的。智能体往往需要更长的推理链路、更复杂的工具调用与多轮交互,使吞吐与时延成为核心指标。,算力建设也在从“单点设备采购”转向“全栈平台+软件栈+交付运维”,企业更需要可复制、可扩展、可运维的一体化方案,以降低集成成本与部署不确定性。 影响:合作从产品协同迈向“整厂式交付”,重塑产业竞争要素 在上述背景下,联想集团在大会期间发布新一代混合式人工智能优势集(Lenovo Hybrid AI Advantage),并与英伟达深度协同,推出涵盖推理平台、云超级工厂与行业智能体解决方案的组合方案。英伟达创始人兼首席执行官黄仁勋在主题演讲中表示,token将成为智能时代的重要计量单位,“工厂式”基础设施是规模化生成与分发智能能力的关键载体。相关表述也显示,产业竞争焦点正从“算力芯片”延伸到“算力工厂”,综合比拼软件栈、系统设计、散热能效、供应链交付与运维体系等能力。 对策:以“云超级工厂”为抓手,强化推理效率、液冷交付与本地化部署 据介绍,联想与英伟达此次联合方案包括:搭载NVIDIA Dynamo与NVIDIA NIM的新一代联想推理平台;由NVIDIA Vera Rubin NVL72驱动的联想“云超级工厂”;以及基于NVIDIA Blueprints及相关软件构建的行业专用智能体解决方案。其中,“云超级工厂”是重点方向,面向吉瓦级规模数据管理,以及超大规模云、主权云服务商等部署场景,强调以全液冷与机架级系统交付提升能效与落地效率。 联想上表示,作为Vera Rubin NVL72的首发合作伙伴之一,将交付全液冷机架级系统,并同步推出HGX Rubin NVL8系统;同时与Nscale合作,为大规模推理与智能体负载提供支持。按照发布信息,新平台相较前代可实现吞吐能力的数量级提升,并将单token成本降低至前代水平的十分之一,以更低的边际成本支撑推理规模扩张。围绕用户体验与工程交付,方案也强调更快的首token响应时间、全球制造与本地交付能力,以及可持续与液冷能力等关键要素。 前景:推理成为长期主战场,基础设施将走向标准化、模块化与绿色化 从趋势看,推理工作负载将随智能体应用扩散而持续增长,产业对“低成本、高吞吐、低时延、可运维”的要求也将更提高。谁能在系统设计、软件优化、液冷能效、供应链交付与本地合规之间形成闭环能力,谁就更可能在新一轮基础设施竞赛中占据先机。联想集团董事长兼首席执行官杨元庆认为,随着智能体推动推理负载呈指数级增长,成本控制与单token性能将更为关键;双方合作旨在帮助各类组织把人工智能从试验推进到企业级生产,并进一步迈向“云超级工厂”的规模化阶段。
在全球数字经济加速发展的背景下,算力基础设施正成为衡量竞争力的重要支撑。联想与英伟达的战略合作,表明了技术与工程化能力对产业升级的带动作用,也为AI基础设施建设提供了新的路径。随着算力成本下降与能效提升的持续推进,人工智能应用的覆盖面与可及性有望更扩大,并带动新一轮产业变革。