艾伦研究所发布开源视觉网络代理MolmoWeb 推动网页任务自动化研究走向可复现

（问题）近年来，能够浏览器中“代替用户办事”的网络代理技术进步很快，应用从信息检索扩展到电商比价、在线填报等场景。行业的共同难题在于：关键能力往往依赖闭源模型和私有数据，外界难以了解训练流程、数据构成和评估方式——研究难以复现——也不利于明确系统边界与风险，从而影响在安全、可控条件下的规模化落地。（原因）网络代理不同于传统问答系统，核心挑战在于跨网站泛化和多步操作规划：模型既要理解网页的视觉布局与交互元素，又要在连续的点击、输入、滚动中保持任务目标不偏移。过去，高性能方案多依赖大规模专有数据、昂贵算力和闭源工具链，学术界与中小开发者很难在同一起跑线上参与。一些方案还通过对商业系统进行“蒸馏”式训练快速提效，但能力来源、数据合规和可解释性因此受到质疑。（影响）在此背景下，艾伦人工智能研究所推出MolmoWeb，被认为补齐了开源网络代理体系的一块关键拼图。MolmoWeb属于Molmo 2模型家族，提供40亿和80亿参数两种规模，主打“小而可用”，面向本地运行和研究实验场景。其思路是让代理像人一样通过网页界面完成任务：接收指令后，基于网页截图预测下一步动作，并通过点击、键入、滚动等操作形成闭环。这种方式更贴近真实使用环境，便于观察模型在复杂网页中的稳定性与常见错误类型。在性能上，团队表示MolmoWeb在多项标准浏览器基准测试中表现突出，在开源权重模型对比中领先部分同类模型。研究人员也指出，一些商业系统在总体能力上仍更强，但MolmoWeb的重点不只在榜单成绩，更在于开放训练数据、工具链与评估框架，为研究者提供可审计、可复现的替代方案，推动对网络代理机制、可靠性与安全性的深入研究。（对策）MolmoWeb在数据建设上强调“可获得、可复现”。其训练集包含约3万条人类任务轨迹，被称为公开发布中规模较大的同类数据集之一，覆盖1100多个网站、近60万个子任务。考虑到单靠人类轨迹难以支撑更大规模训练，团队引入基于可访问性树的代理生成合成轨迹。相较纯视觉方法，可访问性树提供更结构化的页面信息，生成成本更低、覆盖面更广，可用于补齐长尾网站和多样化任务。同时，训练集还包括带注释的网页截图，以及超过220万个问答对，用于增强模型对网页内容的理解与推理能力。从方法上看，这条路线旨在降低对私有系统的依赖，减少“黑箱式能力迁移”，将模型提升更多建立在可公开验证的数据和流程之上。配套开放的评估工具也有助于统一测量口径，减少不同团队因指标和环境差异带来的结果不可比。（前景）业内人士认为，网络代理要走向更广泛应用，仍需在稳定性、安全性与合规治理上持续突破。一上，网页环境高度动态，页面改版、弹窗干扰、登录与权限等因素都可能导致任务链路中断；另一方面，代理具备实际操作能力，若缺少清晰的权限边界与风险控制，可能引发误操作、信息泄露，甚至被恶意诱导。开源模型与工具的完善，有望吸引更多研究力量投入安全对齐、行为约束、可解释评测与红队测试，形成更透明的技术治理生态。产业层面，小参数、可本地运行的代理模型，为政务服务、企业内网检索以及对合规敏感的自动化流程提供了新选项：在数据不外传的前提下实现一定程度的网页交互自动化。未来若能在权限管理、审计记录、失败回退与人机协同等环节形成更成熟的标准方案，网络代理有望从“演示型能力”走向“可用型工具”。

技术开放与共享是科学进步的重要动力；MolmoWeb不仅为研究人员提供了新的工具，也表明了学术界对技术透明化的坚持。在人工智能快速演进的当下，开源与协作可能推动下一轮技术突破与应用落地。