你敢信,现在的ai大模型碰到多轮对话居然这么拉垮,最高性能能直接掉39% ,连最新的gpt

你敢信,现在的AI大模型碰到多轮对话居然这么拉垮,最高性能能直接掉39%,连最新的GPT-5都逃不掉这定律。有个叫Philippe Laban的专家带着团队测了整整六种任务,发现只要把问题拆开几条消息说,模型的表现就会断崖式下跌。IT之家也证实了这点,现在新出的模型稍微好点了,性能降了33%,但问题根本没解决。不过Python任务倒是有点儿起色,好些模型只丢了10%到20%的性能。不过呢,拉班觉得这还是保守估计,因为他们只用了简单的用户模拟;要是真遇上人在中途变卦,这数值只会往更大了走。哪怕你调低温度值这种技术微调也没用。最靠谱的法子还是一旦出岔子就重新开个新对话,最好先让模型把所有请求总结一遍,再用这份总结当新起点。这次由THE DECODER报道的消息就放在这儿,大家好好看着办吧。