青云科技发布新一代AI基础设施 实现"CPU+GPU"智能动态调度

当前,智能体从概念验证走向业务一线,正在推动企业从“单点模型调用”转向“多步骤任务编排”。

在财务分析、研发辅助、客户服务、运营管理等场景中,智能体往往既要完成大模型推理、检索生成等“思考型”工作,也要执行数据整理、文件处理、系统调用、网络交互等“行动型”任务。

随之而来的,是算力需求结构的明显分化:推理侧更依赖GPU并行加速,执行侧则更适合CPU的通用计算与高频调度。

然而,多数企业现有基础设施仍呈现“多平台分立、资源各自为政”的格局,算力难以统筹,调度策略割裂,导致资源闲置与拥堵并存、成本上升与体验波动叠加,成为智能体规模化落地的现实瓶颈。

造成上述矛盾的原因,一方面在于历史建设路径不同。

企业往往分别采购或建设CPU集群与GPU集群,形成多套管理体系与运维链路;不同业务线又可能引入不同的容器平台、作业系统与推理框架,进一步加剧平台碎片化。

另一方面,智能体任务具有强动态性:同一实例在短时间内会在“推理—执行—推理”之间切换,传统静态绑定资源的方式难以匹配其工作节奏,常见现象包括GPU被低价值执行任务占用、关键推理任务排队等待、CPU资源不足导致外部工具调用延迟等。

最终结果是吞吐下降、时延上升、可用性与成本控制难以兼顾。

在这一背景下,青云发布AI Infra 3.0,主打以K8s原生调度能力叠加异构资源虚拟化能力,将分散的CPU、GPU纳入统一资源池,形成“一套调度逻辑、多元算力协同”的一体化架构。

据介绍,该体系可依据智能体任务特性进行动态分配:在财报分析、代码生成等对模型推理吞吐与时延敏感的场景中,调度引擎优先保障GPU资源以提升推理效率;在数据整理、文件操作、网络交互等执行类任务中,则自动切换由CPU承载以提高整体资源利用率,并支持毫秒级算力切换与负载均衡。

其核心思路在于通过“算力按需匹配”降低错配带来的系统性损耗,使智能体在“思考”与“行动”之间实现更平滑的衔接。

从行业影响看,统一调度与异构资源协同有望带来三方面变化:其一,提升资源使用效率,减少GPU被非推理任务占用的结构性浪费,降低单位任务成本;其二,改善业务体验,在高峰期通过更精细的调度策略稳定推理与执行链路时延,降低响应抖动;其三,简化平台治理,减少多套系统并行带来的运维复杂度,为跨部门、跨业务的算力统筹创造条件。

对于希望把智能体从“少量试点”推向“面向全员、面向客户”的企业而言,这类基础设施层的整合能力将成为规模化运营的关键支撑。

值得关注的是,智能体商业价值最终取决于能否实现大规模部署与稳定运行。

高并发下不仅要承接算力压力,还要在持续运行中保障数据安全、权限隔离与调用合规。

青云方面表示,AI Infra 3.0在“CPU+GPU”混合统一架构之上结合云原生Serverless特性,实现算力秒级弹性伸缩:面对峰值场景,可秒级启动数十万智能体实例,GPU集群同步扩容支撑百万级Token并行推理,以应对高并发算力需求。

业界普遍认为,弹性能力的价值不止于“扛峰值”,更在于提升资源供给与需求的匹配程度,使企业以更精细的方式控制成本曲线,并为突发性业务增长预留空间。

面向下一阶段发展,业内判断智能体将从单一应用走向“多智能体协作”,从单组织内部使用走向跨系统、跨场景联动,对底层基础设施提出更高要求:一是更强的统一调度与可观测能力,支持在复杂任务链路中定位瓶颈、进行容量规划;二是更完善的安全与治理体系,涵盖数据边界、访问控制、审计追溯与运行隔离;三是更灵活的算力供给模式,能够在不同模型、不同推理框架、不同业务优先级之间实现动态平衡。

在此过程中,“统一资源池+云原生弹性”的路线有望成为企业建设智能体平台的重要方向,但其效果仍需在不同规模、不同业务负载与不同合规要求下接受持续检验。

AI Agent正在成为人工智能应用的新范式,其规模化商业化部署的关键在于拥有高效、可靠的基础设施支撑。

青云AI Infra 3.0通过统一的异构算力调度架构,实现了计算资源的最优配置和动态匹配,为智能体应用的大规模落地扫清了技术障碍。

这一创新不仅体现了对当前行业需求的深刻理解,更预示着人工智能基础设施正在向更加成熟、更加智能的方向演进。

随着类似解决方案的推广应用,AI Agent有望在更广泛的领域实现商业价值,进而推动人工智能产业的深层次发展。