艾伦研究所发布开源视觉网络代理MolmoWeb 推动网页任务自动化研究走向可复现

(问题)近年来,能够浏览器中“代替用户办事”的网络代理技术进步很快,应用从信息检索扩展到电商比价、在线填报等场景。行业的共同难题在于:关键能力往往依赖闭源模型和私有数据,外界难以了解训练流程、数据构成和评估方式——研究难以复现——也不利于明确系统边界与风险,从而影响在安全、可控条件下的规模化落地。 (原因)网络代理不同于传统问答系统,核心挑战在于跨网站泛化和多步操作规划:模型既要理解网页的视觉布局与交互元素,又要在连续的点击、输入、滚动中保持任务目标不偏移。过去,高性能方案多依赖大规模专有数据、昂贵算力和闭源工具链,学术界与中小开发者很难在同一起跑线上参与。一些方案还通过对商业系统进行“蒸馏”式训练快速提效,但能力来源、数据合规和可解释性因此受到质疑。 (影响)在此背景下,艾伦人工智能研究所推出MolmoWeb,被认为补齐了开源网络代理体系的一块关键拼图。MolmoWeb属于Molmo 2模型家族,提供40亿和80亿参数两种规模,主打“小而可用”,面向本地运行和研究实验场景。其思路是让代理像人一样通过网页界面完成任务:接收指令后,基于网页截图预测下一步动作,并通过点击、键入、滚动等操作形成闭环。这种方式更贴近真实使用环境,便于观察模型在复杂网页中的稳定性与常见错误类型。 在性能上,团队表示MolmoWeb在多项标准浏览器基准测试中表现突出,在开源权重模型对比中领先部分同类模型。研究人员也指出,一些商业系统在总体能力上仍更强,但MolmoWeb的重点不只在榜单成绩,更在于开放训练数据、工具链与评估框架,为研究者提供可审计、可复现的替代方案,推动对网络代理机制、可靠性与安全性的深入研究。 (对策)MolmoWeb在数据建设上强调“可获得、可复现”。其训练集包含约3万条人类任务轨迹,被称为公开发布中规模较大的同类数据集之一,覆盖1100多个网站、近60万个子任务。考虑到单靠人类轨迹难以支撑更大规模训练,团队引入基于可访问性树的代理生成合成轨迹。相较纯视觉方法,可访问性树提供更结构化的页面信息,生成成本更低、覆盖面更广,可用于补齐长尾网站和多样化任务。同时,训练集还包括带注释的网页截图,以及超过220万个问答对,用于增强模型对网页内容的理解与推理能力。 从方法上看,这条路线旨在降低对私有系统的依赖,减少“黑箱式能力迁移”,将模型提升更多建立在可公开验证的数据和流程之上。配套开放的评估工具也有助于统一测量口径,减少不同团队因指标和环境差异带来的结果不可比。 (前景)业内人士认为,网络代理要走向更广泛应用,仍需在稳定性、安全性与合规治理上持续突破。一上,网页环境高度动态,页面改版、弹窗干扰、登录与权限等因素都可能导致任务链路中断;另一方面,代理具备实际操作能力,若缺少清晰的权限边界与风险控制,可能引发误操作、信息泄露,甚至被恶意诱导。 开源模型与工具的完善,有望吸引更多研究力量投入安全对齐、行为约束、可解释评测与红队测试,形成更透明的技术治理生态。产业层面,小参数、可本地运行的代理模型,为政务服务、企业内网检索以及对合规敏感的自动化流程提供了新选项:在数据不外传的前提下实现一定程度的网页交互自动化。未来若能在权限管理、审计记录、失败回退与人机协同等环节形成更成熟的标准方案,网络代理有望从“演示型能力”走向“可用型工具”。

技术开放与共享是科学进步的重要动力;MolmoWeb不仅为研究人员提供了新的工具,也表明了学术界对技术透明化的坚持。在人工智能快速演进的当下,开源与协作可能推动下一轮技术突破与应用落地。