微软推出了个特别的模型叫phi-4-reasoning-vision-15b

微软这回推出了个特别的模型叫Phi-4-Reasoning-Vision-15B,是个开源的AI,微软说它能自己决定怎么去思考。以前那些做IT的人都得跟在后面改代码,这个模型可不一样,它是主动去感知东西。简单说就是以前咱们让它看图片,它就只告诉咱们有什么,这回它会去深度分析,把看到的和文字联系起来。 这个模型有个厉害的地方,就是能根据任务切换模式。要是遇到数学题或者逻辑分析这种需要仔细想的活,它就用多步推理;要是只是简单的OCR或者定位元素,它就直接给个结果,这样速度就快了。这也就意味着开发者可以用它来做GUI自动化、图表分析这些事情。 这个模型还挺聪明的,它是专门给Phi-4这个小语言模型(SLM)设计的。它最关键的特性就是混合推理行为。你给它一张截图和一条自然语言指令,它能输出目标UI元素的标准坐标框。其他智能体模型拿到这些坐标就能直接去点击或者滚动屏幕上的内容。 总的来说,这次的Phi-4-Reasoning-Vision-15B把“看得清楚”和“想得深入”这两件事合在一起了。这对于那些想要让AI理解屏幕内容并执行精准交互的人来说特别有用。