腾讯研究团队发布大语言模型评测新基准 揭示上下文学习能力成行业关键瓶颈

大语言模型多个领域显示出亮眼能力,但也存在一项根本限制。腾讯混元研究团队分析认为,现有大模型与人类解决实际问题时的关键差异在于:人类能在执行任务过程中从环境中持续学习新知识,而大模型主要依赖预训练阶段压缩进模型权重的静态记忆,即“参数化知识”。因此,大模型在标准化考试中往往表现出色,但面对需要随场景变化、动态适应的真实工作任务时,常常难以胜任。 为了系统评估并改进此短板,腾讯混元研究团队构建了CL-bench基准。该基准由专家设计,包含500个复杂上下文、1899个具体任务和31607条验证标准。其核心要求是:模型在完成每个任务时,必须从给定上下文中学习预训练阶段不具备的新知识,并将其正确用于解题。这些知识覆盖广泛,既包括领域专家新构建的内容,也包含来自小众与长尾信息源的信息,确保模型无法仅凭回忆“参数化知识”完成任务。 CL-bench将上下文学习场景划分为四类。第一类是领域知识推理,要求模型理解虚构法律体系、创新金融工具或小众专业知识,并据此推理。第二类是规则系统应用,模型需要理解并运用新定义的正式系统,例如新的游戏机制、数学形式体系或编程语法。第三类是程序性任务执行,聚焦对工作流、产品手册等复杂流程系统的理解与应用。第四类是经验发现与模拟,要求模型从实验数据与观测记录中归纳推理,发现潜在规律。四类场景覆盖现实工作中常见的演绎与归纳任务,用于更全面地衡量模型的上下文学习能力。 研究团队的实测结果值得关注。在CL-bench评估中,当前先进大模型的表现低于预期。即便是表现最好的GPT-5.1(high),任务成功率也仅为23.7%,多数主流模型的平均成功率不足17.2%。这表明,现有大模型在“从上下文学习新知识并正确应用”上仍存在明显不足,而这也成为其走向真实业务场景的重要瓶颈。 CL-bench的推出具有现实价值。首先,它为大模型评测引入新的维度与标准,补足了既有体系中对上下文学习能力衡量的缺口。其次,它为模型研发提供更明确的优化方向,推动行业从单纯追求参数规模与预训练数据量,转向更重视动态学习与知识应用能力。再次,它也为用户选型与落地应用提供更可量化的参考,有助于推动大模型技术更贴近真实任务与工作流程。 腾讯混元的这一工作反映了业界对大模型发展路径的再审视。随着应用持续深入,仅靠规模扩展与性能堆叠已难以满足需求,提升模型的适应性、学习能力与实际执行效果更为关键。CL-bench的发布也意味着大模型评测与优化进入新的阶段,有望推动行业以更理性、更可验证的方式推进技术进步。

大模型真正走向规模化应用,关键不在“会不会说”,而在“能不能学、敢不敢用、可不可靠”。以CL-bench为代表的评测探索,本质上是把行业注意力从“记住多少”转向“现场学多少、执行准不准”。当评测更贴近现实任务、标准更强调可验证与可追溯,技术进步才能更稳健地转化为生产力,为更多行业提供可信、可控、可落地的智能能力。