微软搞了个研究，说ai 聊天机器人越聊越笨，搞不定复杂对话的几率直接涨了112%

微软最近搞了个研究，说AI聊天机器人越聊越“笨”，搞不定复杂对话的几率直接涨了112%。这事儿Windows Central给说了，微软研究院和赛富时合作做的这活儿。他们拿GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1还有Llama 4这15个顶尖模型试了个遍，总共跑了20万多次模拟对话。结果发现个很要命的问题：“迷失会话”。这组数据显示，这些大模型单干的时候准确率能到90%，可一旦变成多轮唠嗑，这成功率就掉了一大截，只剩约65%了。更要命的是，模型的“智商”其实没怎么降——也就是核心能力顶多掉了15%——但“不靠谱的程度”却飙到了112%。说白了就是它们还能干活儿，就是不稳当，跟不上上下文的变化。现在的评估大多是在理想的单轮环境里搞的，比如一次性把所有指令给全了。但现实中大家说话都是一点一点加进来的。一旦把任务拆成好几回合做，哪怕是最牛的模型也容易犯迷糊。研究员扒了扒为啥变笨：一个是“过早生成”。机器老在用户还没把话说全之前就想抢答了。一旦第一轮把错误的假设当作基础（比如第一印象），后续推理就顺着这根线走了，根本不会改主意。另一个是“答案膨胀”，在多轮聊天里回复的长度能比单轮时候多20%到300%。话越长夹带的私货越多，幻觉（指凭空编造的内容）也越多，这些东西塞进了上下文里，后面的推理自然就不准了。哪怕是带着“思考词元”的新一代推理模型（比如OpenAI的o3和DeepSeek的R1），在多轮对话里也没显出多大优势。把温度参数设成0这种保一致性的老招数也没啥用。这事儿给搞AI评估的提了个醒：现在的基准测试太理想化了。对于想用AI搭建复杂流程的开发者来说，这简直是个大麻烦。目前看来最管用的解决办法反而是尽量减少来回对话的次数，把所有需要的数据、限制和指令都打包一次性塞进去提示里。