微软做了个实验，把gpt-4.1、gemini 2.5 pro、claude 3.7 sonnet、

最近微软做了个实验，把GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1和Llama 4这15款大模型拉出来，让它们互相模拟对话了20万次。结果发现个挺严重的问题，模型在单轮任务里的成功率能有90%，可一旦变成多轮互动，就跌到了65%，可靠性差了整整112%。其实这就像你跟机器人聊天聊久了，就会发现它前言不搭后语，逻辑全断了，这感觉可太真实了。研究人员琢磨了半天，觉得这问题主要是因为两个毛病。第一个是模型总想抢答，用户还没说完呢，它就急着把答案抛出来了。这时候要是有个假设错了，后面全是跟着错的。还有个毛病是回复变得特别长，比单轮任务能暴涨20%到300%，里面塞满了一堆乱猜的“幻觉”。这些乱七八糟的东西会被自动当成上下文继续用，就像滚雪球一样把错误越滚越大。以前大家都觉得用“思考词元”能帮模型在多轮对话里回回血，结果试下来还是不行。关键在于现在的基准测试只盯着理想的单轮场景看，完全不考虑真实对话那种复杂的动态过程。对于那些靠AI做复杂流程的开发者来说，这简直是个红灯警告。除了AI翻车的事，微软还给Windows 11画图软件加了个小补丁——现在能自由旋转形状、文本框或者选区了。选中一个东西后顶部就会出现个旋转手柄，随便拖一拽就能转角度了，这操作可比以前顺手多了。要是需要调得很精细，还能打开菜单输度数，哪怕是1°的微调也能一步到位。别看这功能看起来不起眼，但确实让老应用多了点灵活性。