清华团队开源4B参数智能体模型性能媲美30B级闭源大模型

近年来，智能体技术加速落地，模型需要完成“检索—规划—工具调用—执行—反思”的链式任务，长程推理能力与工程可部署性成为行业共同关注点。

然而，在终端设备与边缘场景中，算力与能耗约束突出，传统依赖大参数规模的路线在成本、时延、隐私与稳定性方面面临现实挑战。

如何在更小参数量下获得更强任务能力，并形成可复用的训练与评测方法，成为推动应用扩面提质的关键问题。

此次开源的AgentCPM-Explore以仅4B参数为核心特征，瞄准长程任务与工具使用能力的提升。

据研发方介绍，该模型由清华大学自然语言处理实验室、中国人民大学、面壁智能与OpenBMB开源社区联合研发，在GAIA、HLE、Browsercomp、Browsercomp（ZH）、WebWalker、FRAMES、Xbench-DeepResesarch、Seal-0等智能体评测基准上体现出较强“参数效能比”：不仅在同等规模模型中达到领先水平，还在部分评测中追赶甚至超越8B级别模型，并在个别基准上呈现接近部分30B以上甚至闭源模型的效果。

尤其在Xbench-DeepResearch评测中，研发方称其表现超过部分闭源大模型，并突破了不同量级模型随参数增长的常见趋势线，显示出更高的能力密度。

从原因看，这一结果的背后既有技术路线的演进，也有开源生态的协同效应。

一方面，智能体任务不同于单轮问答，要求模型具备更稳健的规划与执行能力，训练目标与数据结构需要围绕“可操作的任务完成”而非“语言流畅度”进行优化。

通过在工具使用、网页交互、多步推理等环节的针对性训练与评测，模型在有限参数下仍可能获得更高的任务完成率。

另一方面，产学研与社区协作使得方法论、工程实现与评测反馈形成闭环，减少重复试错，提高迭代效率。

值得注意的是，研发方同时开源了从基础模型到SOTA模型的全流程代码，并披露GAIA指标从25.24%提升至63.90%，这意味着外界不仅可以获取模型权重，更能复现其能力进化路径，为后续研究与产业应用提供可检验、可改进的起点。

从影响看，小参数高能力密度模型的出现，可能对终端侧应用与行业格局带来多重推动。

其一，在手机、PC、车载、工业终端等场景，4B级模型更有利于在本地或边缘侧部署，降低对云端算力的依赖，减少网络波动带来的不可用风险，并在一定程度上增强数据隐私与合规管理能力。

其二，开源全流程代码有助于降低开发门槛，促使更多团队围绕统一基准开展对比研究，推动智能体评测从“展示性案例”走向“可量化的任务能力”。

其三，在应用侧，若模型在网页操作、信息检索、任务规划等能力上更稳定，将加速智能体在办公自动化、客户服务、研发辅助、数据分析等领域的规模化试点。

同时也需看到，智能体模型的“越级”表现仍需要在更复杂、更真实的业务环境中经受检验。

评测基准能够提供可比性，但真实场景往往包含复杂权限、噪声信息、动态页面、长时依赖与安全约束等问题。

模型在工具调用中的可靠性、对错误的自我修正能力，以及对敏感操作的约束机制，都是决定其能否从“能用”走向“好用、可信用”的关键。

此外，开源带来创新活力的同时，也需要加强对数据来源、模型安全、滥用风险与合规边界的治理，推动形成更清晰的责任链条与使用规范。

面向对策层面，行业可从三方面着力：一是持续完善智能体评测体系，在多语言、多任务、多环境下建立更贴近真实业务的测试集合，并强化可复现标准；二是推动端侧推理与工具生态协同，围绕浏览器、检索、办公套件、企业系统等高频工具构建稳定接口与权限管理机制；三是将安全与治理前置，探索“可审计的工具调用日志”“最小权限执行”“高风险操作二次确认”等机制，提升智能体在生产环境中的可控性。

展望未来，随着算法、数据与工程协同优化，小参数模型有望在特定任务域实现更高的性价比，并与云端大模型形成分工互补：端侧负责即时响应、隐私敏感与离线可用，云侧负责复杂推理与跨域知识整合。

AgentCPM-Explore的开源实践表明，“以更小的参数做更强的任务”正在成为一条可验证的路线，也为我国开源生态与智能体产业化提供了新的样本。

在人工智能发展面临能效瓶颈的当下，这项突破证明技术创新比单纯扩大规模更具可持续性。

它不仅为行业提供了降本增效的新范式，更展现出我国科研团队在基础算法领域的原创能力。

当全球科技竞争进入深水区，此类核心技术的自主创新正成为推动高质量发展的关键变量。

清华团队开源4B参数智能体模型 性能媲美30B级闭源大模型

清华团队开源4B参数智能体模型性能媲美30B级闭源大模型