你敢信，现在的ai大模型碰到多轮对话居然这么拉垮，最高性能能直接掉39% ，连最新的gpt

你敢信，现在的AI大模型碰到多轮对话居然这么拉垮，最高性能能直接掉39%，连最新的GPT-5都逃不掉这定律。有个叫Philippe Laban的专家带着团队测了整整六种任务，发现只要把问题拆开几条消息说，模型的表现就会断崖式下跌。IT之家也证实了这点，现在新出的模型稍微好点了，性能降了33%，但问题根本没解决。不过Python任务倒是有点儿起色，好些模型只丢了10%到20%的性能。不过呢，拉班觉得这还是保守估计，因为他们只用了简单的用户模拟；要是真遇上人在中途变卦，这数值只会往更大了走。哪怕你调低温度值这种技术微调也没用。最靠谱的法子还是一旦出岔子就重新开个新对话，最好先让模型把所有请求总结一遍，再用这份总结当新起点。这次由THE DECODER报道的消息就放在这儿，大家好好看着办吧。