全球互联网巨头技术降本新突破 开源模型助力企业年省近八成推理成本

问题——推理需求激增与成本压力同步上升,企业面临“用得起、用得稳、用得好”的现实考题。随着自动化代码审计、内容审核、客服与运维等智能体应用进入生产核心环节,推理调用量快速攀升。Cloudflare披露,其内部用于扫描代码库安全缺陷的智能体每日处理超过70亿Token;若继续使用原有中等价位的闭源模型,仅此项的年成本就约240万美元。如何高并发、长上下文和多轮任务场景下控制费用,同时保障时延与稳定性,成为互联网基础设施企业必须解决的问题。 原因——开源能力成熟叠加工程化优化,为“降本不降质”提供了可落地的路径。Cloudflare此次将开源模型引入核心生产,并非简单更换模型接口,而是与自身推理体系同步改造:一上,采用自研Inf推理引擎并进行定制化内核设计,结合数据并行、张量并行与专家并行等架构,提高吞吐与资源利用率;另一方面,平台层推出多项机制,包括前缀缓存折扣以减少多轮对话中的重复计费与重复计算、通过会话亲和性标头提升缓存命中率、提供异步批量推理API以适配代码扫描等非实时任务,深入摊薄单位推理成本。模型侧能力也支撑规模化部署:超大上下文窗口、工具调用和多模态输入覆盖复杂任务需求;MoE架构以“总参数规模大、单次激活参数可控”的方式,在效果与成本之间取得平衡。 影响——成本结构被重新划分,开源模型正从“可选项”走向“基础件”。Cloudflare测算显示,切换后推理成本下降77%;内部测试中还曾一次性精准识别出多个已确认安全漏洞,说明降本并未以明显牺牲效果为代价。对服务全球大量网站与应用的基础设施企业而言,推理成本下降意味着智能体能力可以更可持续地扩展:一是直接降低运营成本、提升利润弹性;二是让更多“高频但非强实时”的任务常态化上线,推动安全扫描、代码质量治理等环节从抽检走向全量;三是降低对单一商业闭源供应体系的依赖,提升供应链与技术路径的可控性与抗风险能力。 对策——企业需以“模型选型+系统工程”双轮驱动,避免把降本押注在单点替换上。实践表明,大规模推理降本更多来自整体工程能力,而不只是换模型。面向生产落地,建议从三上推进:其一,建立覆盖准确率、误报漏报、时延、稳定性与总拥有成本的评估体系,按任务类型分层选型,避免“一模通吃”;其二,强化缓存、路由、批处理、异步队列与会话治理等平台能力建设,用系统性手段提升单位算力产出;其三,在安全与合规上完善模型治理与审计机制,尤其在代码与安全场景中误判代价更高,应配套人机协作与回溯机制,形成可验证、可追责的闭环。 前景——推理需求或将长期上行,开源与闭源的价值分工有待重新评估。Cloudflare管理层曾公开判断,未来互联网流量中将出现大量由智能体驱动的访问与交互,推理需求可能呈指数级增长。在这一趋势下,企业对推理成本的敏感度会持续提高;开源模型凭借透明、可定制与成本可控等特性,有望在更多“高频、可工程优化、可规模化”的场景中加速渗透。同时,闭源模型仍可能在部分高端能力、生态服务与特定领域数据能力上保持优势,但其溢价需要以更稳定的效果、更清晰的差异化和更可量化的收益来支撑。随着更多头部平台把开源模型纳入生产链路,行业竞争焦点或将从比拼参数与榜单,转向比拼推理工程、产品化能力与场景闭环效率。

从Cloudflare的实践看,大模型落地的竞争正在从“谁的模型更强”扩展为“谁能以更低成本、更高确定性把能力嵌入生产流程”。当推理调用成为数字经济中的高频基础消耗,开源模型与工程化能力将共同决定企业能否在算力与成本约束下保持韧性。围绕推理效率、平台治理与生态协同的新一轮竞争,也可能因此深入加速。