通义实验室开源GUI智能体基座模型 推动人机交互智能化新阶段

围绕“让软件更懂人、让操作更省时”的需求,通用GUI交互能力正在成为智能体技术落地的重要方向。

近期,通义实验室多模态交互团队对外开源通用GUI智能体基座模型MAI-UI,提出以“理解界面—规划步骤—执行操作—必要时澄清—工具协同”的方式,完成查询车票、群组同步信息、会议安排调整等跨应用、多步骤复杂任务。

模型家族包含不同参数规模版本,其中2B与8B已开源,并适配手机、电脑等多类操作系统界面。

问题:真实场景中,用户需求往往不以“明确步骤”呈现。

无论是出行购票、办公协同还是生活服务,许多任务需要在多个应用间切换,涉及搜索、确认、填写、比对、提交等连续动作。

传统自动化方式依赖固定脚本或特定页面结构,一旦界面更新、按钮位置变化或用户表述含糊,就容易出现操作失败、误点误触甚至流程中断。

特别是在移动端小屏环境、信息密度高的页面中,如何稳定识别关键控件并正确执行多步操作,仍是行业痛点。

原因:一方面,GUI界面具有强动态性与异构性,不同系统、不同应用的布局、组件、弹窗与权限提示差异明显,且更新频繁;另一方面,单纯依靠“点击序列”的执行策略,缺少对用户意图的持续校验与对不确定性的处理机制,难以在开放环境中保持可靠性。

此外,部分任务本质上需要“能力外延”——例如路线规划、位置检索、日程协调等,若完全依赖界面逐步点击,不仅耗时,也更容易在细节处出错。

基于此,将界面理解与结构化工具调用结合,让模型既能“看懂屏幕”也能“借助工具”,成为提升成功率的重要路径。

影响:从技术层面看,MAI-UI强调的“模糊指令主动澄清”机制,意味着交互不再停留在单轮命令执行,而是更接近人机协作:当需求不清晰时先问清关键约束条件,再继续执行,以降低误操作风险。

其“调用结构化工具替代繁琐点击”的设计,有望在导航、检索、规划等高频场景中减少冗余操作,提高端到端效率。

团队公布的评测信息显示,MAI-UI在ScreenSpot-Pro、AndroidWorld等GUI理解与任务执行基准测试中取得领先成绩,这在一定程度上反映了其在控件识别、步骤规划与任务完成度方面的综合能力。

对产业生态而言,开源有助于降低开发门槛,推动更多开发者围绕统一基座模型进行微调、评测与工程化适配,形成可复用的交互能力组件,进而加速应用创新。

对策:推动此类技术健康发展,还需在“可用、可靠、可控”上同步发力。

其一,建立更贴近真实业务的评测与对齐机制,覆盖弹窗干扰、权限切换、弱网环境、界面更新等复杂变量,避免只在理想基准上领先。

其二,强化安全与权限治理,在涉及支付、隐私、账号设置等高风险操作时,应具备明确的二次确认、可解释的操作日志与可回退机制,确保“能做事”与“做对事”同等重要。

其三,推动工具调用标准化与可审计化,让地图、日程、通讯等关键能力以受控接口方式接入,减少对界面脆弱操作的依赖,也便于企业合规管理。

其四,加强跨端适配与无障碍支持,面向不同系统版本、不同分辨率与多语言环境,提升普适性与稳定性。

前景:从发展趋势看,GUI智能体正从“演示型能力”走向“生产力工具”。

随着模型在多步骤规划、异常处理与工具协同方面持续增强,跨应用自动化将更接近“自然语言驱动的任务管理”。

未来一段时间,行业竞争点或将集中在三方面:一是从单任务完成转向长期任务的持续跟踪与状态管理;二是从“能执行”转向“可验证”,即对关键决策提供依据、对执行过程提供审计;三是从单一端侧操作扩展到“端云协同”的工作流编排,推动办公、服务、运维等场景的流程再造。

同时也应看到,界面交互天然涉及用户数据与关键操作,技术迭代必须与安全治理、责任边界和用户体验同步推进。

这项具有完全自主知识产权的技术突破,不仅标志着我国在人机交互领域取得重要进展,更展现出科研机构通过开源共享推动产业升级的责任担当。

当技术创新真正服务于效率提升与体验优化,智能时代的普惠价值方能充分彰显。