问题——交互方式改变,新一轮算力瓶颈开始显现 随着大模型能力增强,行业应用的交互模式正发生变化:从“输入提示—得到回答”的一次性对话,转向可持续运行、反复推理、调用工具并执行任务的自主体。国金证券研报认为,这意味着计算资源的消耗不再只是线性增加,而可能进入由“长上下文+持续推理+并行协作”共同推动的高强度推理阶段,算力需求出现再次加速的迹象。研报以开源项目热度和平台数据为例指出,多步骤推理与链式工具调用占比提升,显示自主体正从技术验证走向工程化部署。 原因——长上下文与多主体协作推高计算与带宽成本 研报将算力需求走高归纳为三上原因。 一是“上下文越长、成本越高”的机制约束。主流架构下,自注意力计算开销会随上下文长度增加而更快上升;同时,推理解码对内存带宽高度敏感,存储历史信息的缓存随上下文变长而膨胀——带宽瓶颈更容易出现——进而影响吞吐。市场上常见的阶梯式定价,也从侧面反映了长上下文带来的资源消耗差异。 二是多主体系统带来额外的协同成本。自主体从单体运行转向分工协作,需要在多个执行单元之间传递信息、对齐目标与状态,通信与协调开销会随主体数量增加而放大。研报援引有关机构数据称,企业对多主体系统的关注度快速上升;研究层面也指出,并行主体之间的全局信息压缩与传递存在难以避免的“协调税”,使系统成本不再按主体数量简单倍增,可能出现更复杂的放大效应。 三是效率提升不一定降低总消耗。研报强调,推理效率进步会降低单位成本,但成本下降往往会刺激更大规模的使用需求,形成“越便宜越多用”的扩张效应,反而推高总体算力消耗。工业领域也常用此现象解释效率提升与资源总使用量之间可能出现的逆向关系。 影响——算力竞争从“芯片算力”扩展到“带宽与互联” 研报认为,自主体运行更久、上下文窗口更大、协作链路更多,将对基础设施提出更综合的要求:不仅要提升计算密度,还要更大的内存带宽、更快的互联吞吐,以及更高效的数据调度能力。对数据中心而言,瓶颈可能从单一计算单元的性能竞争,转向“算力—存储—网络”协同能力的系统竞争;对云服务与平台型企业而言,定价策略、资源编排、推理服务质量与成本控制,将成为影响商业化落地的关键变量。研报同时提示,长上下文推理逐步常态化后,存储、散热、供电与机柜部署等配套能力的需求也会同步上升。 对策——用系统工程思路提升供给能力与应用效率 围绕自主体带来的新需求,研报提出:基础设施侧应强化面向推理的系统能力建设,包括提升内存子系统与互联能力、优化推理链路的带宽利用、通过软硬协同提高资源利用率,并在产品与服务层面形成对长上下文与多主体任务的交付能力。应用侧则可通过任务拆分、上下文管理、缓存策略与工具调用优化等方式减少无效Token消耗,提升推理效率与稳定性,避免“长而不精”的资源浪费。研报也提示,企业推进相关布局需关注投入节奏与回报周期的匹配,避免短期盲目扩张带来的成本压力。 前景——长时自主体或成重要方向,算力增长更看重结构性机会 研报判断,自主体从实验走向生产的趋势已较为明确。未来一段时间,对内存带宽、互联吞吐与智能计算密度的需求仍可能保持较快增长,并呈现非线性特征。同时,技术迭代、生态成熟度与行业落地进展将共同决定增长节奏与结构分布:一上,推理效率提升、模型压缩与调度优化有望缓解部分成本压力;另一方面,更多行业将自主体用于复杂业务流程后,任务规模与调用频次可能继续上行,从而对算力基础设施提出更高要求。研报同时提示,应关注行业竞争加剧、技术演进不及预期以及下游资本开支波动等不确定因素对产业链的影响。
人工智能每一次范式变化,往往都伴随基础设施升级。当前由Agent技术带动的算力需求上行,既考验产业链各环节的响应能力,也为提前布局的企业打开新的增长空间。在全球技术竞赛中——把握趋势、补齐基础能力——将成为决定长期竞争力的关键。