ARC-AGI-3基准“游戏化”开启测试：普通人通关率100%，多款大模型得分不足1%

问题：新一轮通用智能讨论的“分歧点”在哪里 3月底，ARC大奖基金会公布一项新的智能评测研究，推出ARC-AGI-3基准测试，并同步披露阶段性对比数据。与以往强调“解题”的静态题库不同，ARC-AGI-3将被测系统置于一组全新原创的交互式回合制环境中：不给说明书、不提供任务目标、不设置教学关卡，系统必须通过与环境互动自行发现规则、识别胜利条件并完成通关。测试结果显示，在官方无外部辅助条件下，多款主流大模型表现显著低于人类受试者水平，最高得分不足1%。该差距使“模型能力是否已逼近通用智能”的争论再次回到可检验的标准之上。原因：评测为何从“网格题”转向“无指令环境” ARC-AGI系列自2019年推出以来，强调不依赖语言知识、文化符号或大量背景常识，主要检验抽象推理与举一反三能力。早期版本多以网格图形任务为载体，并通过计分方式抑制“蛮力搜索”：若完成同一目标需要远多于人类的步骤，将被显著扣分，从而降低单纯依靠算力堆叠的收益。但随着大模型训练与工程化优化持续加速，传统题库型评测出现新的挑战：部分模型可通过大量相似任务训练、测试时针对性调参等方式形成“记忆捷径”，导致分数快速抬升而难以区分真正的通用推理进步与“刷题式提升”。ARC-AGI-3的设计意图正是补齐这一缺口：一是环境全部原创且与既有任务形态差异明显，减少从历史数据中直接受益的空间；二是将关键测试集保持私有与保密，降低围绕公开题库进行反复优化的可能；三是聚焦四类被认为更贴近“通用智能底座”的能力——主动探索、归纳建模、目标推断与规划执行。影响：对能力边界与产业预期带来何种启示研究团队组织了486名普通受试者完成414个环境测试，数据显示人类实现100%通关，单次尝试中位耗时约7.4分钟，部分关卡数分钟即可完成。对照之下，大模型在官方榜的得分极低，反映出其在“未知环境中自发形成目标并有效行动”的环节仍存在明显短板：有的难以建立稳定的规则假设，有的无法从反馈中推断通关条件，有的倾向于无效试探而难以收敛到可执行策略。这一结果对产业界与公众舆论至少带来三点影响：其一，提醒各方区分“语言生成能力、代码生成能力”等显性表现与“通用推理与自主行动能力”之间的差别，避免将局部能力优势等同于整体智能跃迁；其二，促使研发资源从单纯扩大模型规模与数据规模，深入转向提升样本效率、交互学习与长期规划能力；其三，也对评测生态提出更高要求——如何防止“以榜单为导向”的优化遮蔽真实能力进展，如何以更严谨的基准维护可比性与公信力。对策：从研发路径到评测治理需要同步推进业内人士指出，面向ARC-AGI-3所强调的能力维度，可能需要在以下方向加快探索：一是强化面向交互环境的学习范式，提升在信息不完整条件下的探索效率与策略稳定性；二是增强“世界模型”构建能力，推动从碎片反馈中形成可迁移的规律表征，减少盲目试错；三是补齐目标推断与层级规划，使系统能够在缺少明确指令时自主提出子目标并动态修正行动方案；四是将安全与对齐要求前置到智能体式系统研发之中，在增强自主性的同时建立可控边界与可审计机制。在评测治理层面，ARC-AGI-3将“官方榜”与允许外部框架辅助的“社区榜”加以区分，也提示行业：工具链、脚手架与人工编排可提升任务完成率，但并不等同于被测模型本体能力提升。未来基准设计应更强调数据隔离、对抗性泄题防护、可重复的人类基线与透明的统计口径，以减少被“工程技巧”稀释的风险。前景：通用智能仍在路上，关键在于跨越“指令依赖” 从已披露的数据看，大模型在语言理解与生成等进展迅速，但在无指令条件下的自主探索、目标形成与长期规划仍是难点。ARC-AGI-3的意义不在于否定现有技术成果，而在于将评价焦点从“会回答”进一步推向“会在未知中行动”。可以预期，围绕交互式智能体的研究将加速升温，未来也可能出现通过专门训练在该基准上取得大幅提升的系统。不过，评测成绩的提升是否对应真实世界的可靠迁移，仍需更严格的复核、更多样化的任务场景以及更透明的第三方验证来共同支撑。

当技术热潮逐渐回归冷静，ARC-AGI-3测试像一面镜子，既照出当前人工智能的能力边界，也把下一步难题摆在台面上；在追求参数增长和场景落地的同时，如何突破认知建构与自主行动的关键瓶颈，可能决定下一轮技术跃迁的上限。正如计算机科学先驱艾伦·图灵所言：“真正的智能不在于给出正确答案，而在于提出正确问题。”这条路或许比预期更长，但方向正在变得更清晰。