苹果推出30亿的端侧智能体,能看懂屏幕上的图标、文字这些ui 元素,甚至还能帮我们阅读消息或者

苹果公司推出了一款名叫Ferret-UI Lite的东西,它可以让我们方便地查看和控制手机或电脑屏幕上的用户界面。这个模型只有30亿个参数,是专门为移动端和桌面端设计的,体积非常小。它能看懂屏幕上的图标、文字这些UI元素,甚至还能帮我们阅读消息或者查看健康数据,跟应用程序互动起来特别顺畅。这个项目的目标就是搞出一个轻便又智能的端侧智能体,能直接和图形用户界面打交道。研究人员在论文里说,以前那些GUI智能体大多都是基于像GPT和Gemini这种大模型的,确实挺厉害的,在各种导航任务里表现特别好。不过也带来不少问题,比如计算成本太高、推理速度慢、网络延迟大,还有隐私性也不太好。这就让研究者不得不想办法开发一款性能相当但又更轻量级的端到端智能体,这个方向目前看起来还挺有挑战的。为了实现这个目标,研究团队用了很多小模型的优化技术。他们收集了各种真实场景和合成数据里的GUI数据集,把它们混合在一起训练模型。还结合了思维链推理和视觉工具来提升推理能力,再加上基于奖励设计的强化学习方法,最后就搞出了这个30亿参数的Ferret-UI Lite。在训练的时候用了两个阶段:第一个阶段用多样化的真实和合成交互数据进行监督微调(SFT);第二个阶段用带可验证奖励的强化学习(RLVR)来提高任务成功率。 他们还把动作格式统一了一下,推理的时候还加了放大和思维链推理这些技术来提高感知精度。研究人员发现GUI定位和导航数据其实是可以互相补充的,把不同来源的合成数据整合起来能让模型在这两类任务上表现得更好。不过思维链推理和视觉工具虽然有帮助但提升有限;小模型在做一些长程、多步骤的任务时表现还是不够好,对奖励设计也比较敏感。最后他们建议Ferret-UI Lite可以作为端侧智能体,帮苹果公司少依赖谷歌云服务器的同时也给Siri加个隐私保护盾。 文章作者是Sergio De Simone,译者是明知山。