这东西有个小秘密,它其实是个30亿参数的ai 模型,别看它参数少,性能可是非常强的,几乎

2月21日那天,苹果研究团队发布了一个特别有意思的东西——Ferret-UI Lite。这东西有个小秘密,它其实是个30亿参数的AI模型,别看它参数少,性能可是非常强的,几乎能跟传统那种大24倍的大模型打个平手,甚至有时候还能赢。为什么这么厉害?原来它是给手机专门设计的多模态大语言模型,也就是MLLM。它最牛的地方在于能看懂复杂的手机界面。咱们平时用的手机图标和文本那么小,传统的大模型看着就头疼,根本搞不定。但Ferret-UI Lite有个绝活,叫“推理时裁剪”,也就是Inference-time Cropping。这技术就像咱们人眼看东西一样,先大概扫一眼,然后把重要的部分放大仔细看。这样一来,小模型就不用处理那么多乱七八糟的大图了,照样能抓住关键信息,把操作体验搞得更好。 为了练出这么厉害的本事,苹果研究团队还弄了一套专门的合成数据系统。里面有四个角色:任务生成器、规划器、执行者和批评者。它们就像在游戏里一样,不断地试错、修正,生成了好多训练样本。这种做法可比找真人去标注干净数据高效多了。 经过测试,Ferret-UI Lite在简单的操作上表现得特别棒。虽然处理复杂任务还有点吃力,但已经足够让人惊讶了。最关键的是,它能直接在手机上本地运行,不用把屏幕截图传到云服务器上。这不仅让手机有了自己动手操作App的能力,还大大保护了我们的隐私。 这么看下来,Ferret-UI Lite的发布真是苹果在AI领域的一次大突破。它给咱们的手机交互方式带来了全新的思路。我觉得这款轻量级的AI模型一定会让我们的操作习惯变得更方便、更智能。以后技术再发展发展,Ferret-UI Lite肯定能在更多地方派上用场,给咱们带来更多惊喜。