谷歌研究团队突破智能代理技术瓶颈 复杂网页任务执行成功率提升近7倍

(问题)随着线上政务服务、企业内部管理系统和电商平台功能的复杂化,用户网页端完成“查询—筛选—填报—生成—发送”等多步骤操作已成为常态。如何让智能体像人一样在页面间切换、填写表单并完成跨页面流程,是智能化应用实现“可用、可靠”的关键挑战。然而,多步骤网页任务通常链路长、分支多、页面反馈不明确,现有智能体在执行过程中容易出现目标遗忘、路径偏离和重复操作,影响实际应用效果。 (原因)DeepMind团队在2026年3月发布的论文(arXiv:2603.19685v1)对失败案例进行了系统分析,发现“中途卡住”是最常见的失效模式:智能体在某一页面或控件上反复点击或跳转,无法推进任务。研究指出,该现象主要源于两上原因:一是长时序规划能力不足,模型擅长局部决策,但难以持续跟踪和校验总体目标;二是训练反馈过于单一,网页任务通常只最终结果提供“成功/失败”信号,中间步骤缺乏明确指引,导致模型无法判断哪些操作真正推动任务进展。此外,失败案例还包括停留在错误页面、误选入口或遗漏关键信息,反映出网页环境对“过程理解”和“状态记忆”的高要求。 (影响)业内普遍认为,网页操作能力是评估智能体产业应用价值的重要指标之一。若能突破这一能力,将提升企业信息化与数字化转型的效率,如人力资源、财务报销、客户服务及供应链管理等规则明确但流程繁琐的工作可实现更高自动化。同时,这一能力也与数据合规和安全治理密切对应的。网页任务常涉及账号权限、个人信息和商业数据,若智能体出现误操作、越权访问或信息泄露,将带来合规风险与信任危机。因此,提升“可控性”和“可解释的过程约束”与提高成功率同样重要。 (对策)针对上述问题,研究团队提出MiRA框架,核心思路是在训练和执行阶段为智能体提供“可验证的中间目标”,减少长流程中的迷失风险。具体包括:1)自动化任务分解机制,将端到端目标拆解为可操作、可检查的子任务序列,使模型在每一步明确应达成的状态变化;2)基于里程碑的奖励设计,在关键中间步骤提供密集正向反馈,帮助模型形成稳定推进策略;3)在线规划机制,让模型根据当前页面状态动态调整计划,而非依赖固定步骤。 在WebArena-Lite基准测试中,采用MiRA的开源模型Gemma3-12B的成功率从6.4%提升至43.0%。对比结果显示,通用模型如GPT-4-Turbo和GPT-4o的成功率分别为17.6%和13.9%。研究还指出,大型专有模型引入MiRA的在线规划后,成功率可再提升约10个百分点。这些结果表明,结合“过程里程碑”强化学习与动态规划能力,能有效缓解多步骤网页任务的停滞和偏离问题。 (前景)业内人士认为,网页环境特点是“低成本、强通用、覆盖广”,是检验智能体可靠性的理想场景。MiRA提出的任务分解与里程碑反馈机制,可能为其他长链路任务(如跨系统检索、办公协同与工具调用)提供借鉴。然而,规模化应用仍需解决三上问题:1)明确安全边界与权限控制,确保智能体行为可控;2)提升对动态界面和意外弹窗的鲁棒性,增强真实环境中的稳定性;3)建立评测体系与审计机制,确保任务完成过程合规、可复现且操作可追溯。未来,“长流程、强约束、可验证”的训练与评测方法将成为研究与产业落地的重点方向。

从“能对话”到“能办事”,多步骤网页任务是检验智能体实用性的关键场景;MiRA通过强化过程监督与阶段性目标管理,为解决长链条操作中的“迷失”问题提供了可行方案。随着任务分解、过程反馈与安全治理体系的完善,网页智能体有望从效率工具逐步发展为可控、可信、可审计的数字化流程执行者。