清华团队开源4B参数智能体模型 性能媲美30B级闭源大模型

近年来,智能体技术加速落地,模型需要完成“检索—规划—工具调用—执行—反思”的链式任务,长程推理能力与工程可部署性成为行业共同关注点。

然而,在终端设备与边缘场景中,算力与能耗约束突出,传统依赖大参数规模的路线在成本、时延、隐私与稳定性方面面临现实挑战。

如何在更小参数量下获得更强任务能力,并形成可复用的训练与评测方法,成为推动应用扩面提质的关键问题。

此次开源的AgentCPM-Explore以仅4B参数为核心特征,瞄准长程任务与工具使用能力的提升。

据研发方介绍,该模型由清华大学自然语言处理实验室、中国人民大学、面壁智能与OpenBMB开源社区联合研发,在GAIA、HLE、Browsercomp、Browsercomp(ZH)、WebWalker、FRAMES、Xbench-DeepResesarch、Seal-0等智能体评测基准上体现出较强“参数效能比”:不仅在同等规模模型中达到领先水平,还在部分评测中追赶甚至超越8B级别模型,并在个别基准上呈现接近部分30B以上甚至闭源模型的效果。

尤其在Xbench-DeepResearch评测中,研发方称其表现超过部分闭源大模型,并突破了不同量级模型随参数增长的常见趋势线,显示出更高的能力密度。

从原因看,这一结果的背后既有技术路线的演进,也有开源生态的协同效应。

一方面,智能体任务不同于单轮问答,要求模型具备更稳健的规划与执行能力,训练目标与数据结构需要围绕“可操作的任务完成”而非“语言流畅度”进行优化。

通过在工具使用、网页交互、多步推理等环节的针对性训练与评测,模型在有限参数下仍可能获得更高的任务完成率。

另一方面,产学研与社区协作使得方法论、工程实现与评测反馈形成闭环,减少重复试错,提高迭代效率。

值得注意的是,研发方同时开源了从基础模型到SOTA模型的全流程代码,并披露GAIA指标从25.24%提升至63.90%,这意味着外界不仅可以获取模型权重,更能复现其能力进化路径,为后续研究与产业应用提供可检验、可改进的起点。

从影响看,小参数高能力密度模型的出现,可能对终端侧应用与行业格局带来多重推动。

其一,在手机、PC、车载、工业终端等场景,4B级模型更有利于在本地或边缘侧部署,降低对云端算力的依赖,减少网络波动带来的不可用风险,并在一定程度上增强数据隐私与合规管理能力。

其二,开源全流程代码有助于降低开发门槛,促使更多团队围绕统一基准开展对比研究,推动智能体评测从“展示性案例”走向“可量化的任务能力”。

其三,在应用侧,若模型在网页操作、信息检索、任务规划等能力上更稳定,将加速智能体在办公自动化、客户服务、研发辅助、数据分析等领域的规模化试点。

同时也需看到,智能体模型的“越级”表现仍需要在更复杂、更真实的业务环境中经受检验。

评测基准能够提供可比性,但真实场景往往包含复杂权限、噪声信息、动态页面、长时依赖与安全约束等问题。

模型在工具调用中的可靠性、对错误的自我修正能力,以及对敏感操作的约束机制,都是决定其能否从“能用”走向“好用、可信用”的关键。

此外,开源带来创新活力的同时,也需要加强对数据来源、模型安全、滥用风险与合规边界的治理,推动形成更清晰的责任链条与使用规范。

面向对策层面,行业可从三方面着力:一是持续完善智能体评测体系,在多语言、多任务、多环境下建立更贴近真实业务的测试集合,并强化可复现标准;二是推动端侧推理与工具生态协同,围绕浏览器、检索、办公套件、企业系统等高频工具构建稳定接口与权限管理机制;三是将安全与治理前置,探索“可审计的工具调用日志”“最小权限执行”“高风险操作二次确认”等机制,提升智能体在生产环境中的可控性。

展望未来,随着算法、数据与工程协同优化,小参数模型有望在特定任务域实现更高的性价比,并与云端大模型形成分工互补:端侧负责即时响应、隐私敏感与离线可用,云侧负责复杂推理与跨域知识整合。

AgentCPM-Explore的开源实践表明,“以更小的参数做更强的任务”正在成为一条可验证的路线,也为我国开源生态与智能体产业化提供了新的样本。

在人工智能发展面临能效瓶颈的当下,这项突破证明技术创新比单纯扩大规模更具可持续性。

它不仅为行业提供了降本增效的新范式,更展现出我国科研团队在基础算法领域的原创能力。

当全球科技竞争进入深水区,此类核心技术的自主创新正成为推动高质量发展的关键变量。