微软搞了个研究,说ai 聊天机器人越聊越笨,搞不定复杂对话的几率直接涨了112%

微软最近搞了个研究,说AI聊天机器人越聊越“笨”,搞不定复杂对话的几率直接涨了112%。这事儿Windows Central给说了,微软研究院和赛富时合作做的这活儿。他们拿GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1还有Llama 4这15个顶尖模型试了个遍,总共跑了20万多次模拟对话。结果发现个很要命的问题:“迷失会话”。 这组数据显示,这些大模型单干的时候准确率能到90%,可一旦变成多轮唠嗑,这成功率就掉了一大截,只剩约65%了。更要命的是,模型的“智商”其实没怎么降——也就是核心能力顶多掉了15%——但“不靠谱的程度”却飙到了112%。说白了就是它们还能干活儿,就是不稳当,跟不上上下文的变化。 现在的评估大多是在理想的单轮环境里搞的,比如一次性把所有指令给全了。但现实中大家说话都是一点一点加进来的。一旦把任务拆成好几回合做,哪怕是最牛的模型也容易犯迷糊。 研究员扒了扒为啥变笨:一个是“过早生成”。机器老在用户还没把话说全之前就想抢答了。一旦第一轮把错误的假设当作基础(比如第一印象),后续推理就顺着这根线走了,根本不会改主意。另一个是“答案膨胀”,在多轮聊天里回复的长度能比单轮时候多20%到300%。话越长夹带的私货越多,幻觉(指凭空编造的内容)也越多,这些东西塞进了上下文里,后面的推理自然就不准了。 哪怕是带着“思考词元”的新一代推理模型(比如OpenAI的o3和DeepSeek的R1),在多轮对话里也没显出多大优势。把温度参数设成0这种保一致性的老招数也没啥用。 这事儿给搞AI评估的提了个醒:现在的基准测试太理想化了。对于想用AI搭建复杂流程的开发者来说,这简直是个大麻烦。目前看来最管用的解决办法反而是尽量减少来回对话的次数,把所有需要的数据、限制和指令都打包一次性塞进去提示里。