腾讯研究团队发布大语言模型评测新基准揭示上下文学习能力成行业关键瓶颈

大语言模型多个领域显示出亮眼能力，但也存在一项根本限制。腾讯混元研究团队分析认为，现有大模型与人类解决实际问题时的关键差异在于：人类能在执行任务过程中从环境中持续学习新知识，而大模型主要依赖预训练阶段压缩进模型权重的静态记忆，即“参数化知识”。因此，大模型在标准化考试中往往表现出色，但面对需要随场景变化、动态适应的真实工作任务时，常常难以胜任。为了系统评估并改进此短板，腾讯混元研究团队构建了CL-bench基准。该基准由专家设计，包含500个复杂上下文、1899个具体任务和31607条验证标准。其核心要求是：模型在完成每个任务时，必须从给定上下文中学习预训练阶段不具备的新知识，并将其正确用于解题。这些知识覆盖广泛，既包括领域专家新构建的内容，也包含来自小众与长尾信息源的信息，确保模型无法仅凭回忆“参数化知识”完成任务。 CL-bench将上下文学习场景划分为四类。第一类是领域知识推理，要求模型理解虚构法律体系、创新金融工具或小众专业知识，并据此推理。第二类是规则系统应用，模型需要理解并运用新定义的正式系统，例如新的游戏机制、数学形式体系或编程语法。第三类是程序性任务执行，聚焦对工作流、产品手册等复杂流程系统的理解与应用。第四类是经验发现与模拟，要求模型从实验数据与观测记录中归纳推理，发现潜在规律。四类场景覆盖现实工作中常见的演绎与归纳任务，用于更全面地衡量模型的上下文学习能力。研究团队的实测结果值得关注。在CL-bench评估中，当前先进大模型的表现低于预期。即便是表现最好的GPT-5.1（high），任务成功率也仅为23.7%，多数主流模型的平均成功率不足17.2%。这表明，现有大模型在“从上下文学习新知识并正确应用”上仍存在明显不足，而这也成为其走向真实业务场景的重要瓶颈。 CL-bench的推出具有现实价值。首先，它为大模型评测引入新的维度与标准，补足了既有体系中对上下文学习能力衡量的缺口。其次，它为模型研发提供更明确的优化方向，推动行业从单纯追求参数规模与预训练数据量，转向更重视动态学习与知识应用能力。再次，它也为用户选型与落地应用提供更可量化的参考，有助于推动大模型技术更贴近真实任务与工作流程。腾讯混元的这一工作反映了业界对大模型发展路径的再审视。随着应用持续深入，仅靠规模扩展与性能堆叠已难以满足需求，提升模型的适应性、学习能力与实际执行效果更为关键。CL-bench的发布也意味着大模型评测与优化进入新的阶段，有望推动行业以更理性、更可验证的方式推进技术进步。

大模型真正走向规模化应用，关键不在“会不会说”，而在“能不能学、敢不敢用、可不可靠”。以CL-bench为代表的评测探索，本质上是把行业注意力从“记住多少”转向“现场学多少、执行准不准”。当评测更贴近现实任务、标准更强调可验证与可追溯，技术进步才能更稳健地转化为生产力，为更多行业提供可信、可控、可落地的智能能力。

腾讯研究团队发布大语言模型评测新基准 揭示上下文学习能力成行业关键瓶颈

腾讯研究团队发布大语言模型评测新基准揭示上下文学习能力成行业关键瓶颈