最近微软做了个实验,把GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1和Llama 4这15款大模型拉出来,让它们互相模拟对话了20万次。结果发现个挺严重的问题,模型在单轮任务里的成功率能有90%,可一旦变成多轮互动,就跌到了65%,可靠性差了整整112%。其实这就像你跟机器人聊天聊久了,就会发现它前言不搭后语,逻辑全断了,这感觉可太真实了。 研究人员琢磨了半天,觉得这问题主要是因为两个毛病。第一个是模型总想抢答,用户还没说完呢,它就急着把答案抛出来了。这时候要是有个假设错了,后面全是跟着错的。还有个毛病是回复变得特别长,比单轮任务能暴涨20%到300%,里面塞满了一堆乱猜的“幻觉”。这些乱七八糟的东西会被自动当成上下文继续用,就像滚雪球一样把错误越滚越大。 以前大家都觉得用“思考词元”能帮模型在多轮对话里回回血,结果试下来还是不行。关键在于现在的基准测试只盯着理想的单轮场景看,完全不考虑真实对话那种复杂的动态过程。对于那些靠AI做复杂流程的开发者来说,这简直是个红灯警告。 除了AI翻车的事,微软还给Windows 11画图软件加了个小补丁——现在能自由旋转形状、文本框或者选区了。选中一个东西后顶部就会出现个旋转手柄,随便拖一拽就能转角度了,这操作可比以前顺手多了。要是需要调得很精细,还能打开菜单输度数,哪怕是1°的微调也能一步到位。别看这功能看起来不起眼,但确实让老应用多了点灵活性。