大模型加速走向工具化、应用化的当下,如何客观衡量其“能规划、会执行、可持续”成为业界共同关切。阿里千问发布DeepPlanning基准测试,将评测重点从传统问答与单步推理,转向更贴近真实世界的复杂规划能力:不仅要给出方案,更要在多轮决策中始终遵守时间、预算等刚性边界,并在约束条件变化或选项组合复杂的情况下实现整体最优。 问题:从“答对一道题”到“做成一件事”,能力鸿沟仍然存在。DeepPlanning设置的任务强调全局视角与长期一致性。例如,多日旅行的安排需要精确到分钟级,交通衔接、入住退房、景点开放时间与预算上限缺一不可;购物场景则要求模型理解优惠券叠加、满减门槛与商品组合的动态关系,最终实现总价最优。测试结果显示,部分业内领先模型在上述任务中仍会出现计划前后不一致、局部最优替代全局最优、约束在中后段被“遗忘”等现象,反映出其在长链条决策、持续约束维护各上仍有短板。 原因:现实规划的难点,不信息量大,而在约束多、周期长、目标冲突更常见。其一,复杂任务往往包含硬约束与软目标并存:时间与预算不可突破,但舒适度、便利性、性价比又需要权衡,模型需要在多目标之间动态取舍。其二,规划不是一次性生成文本,而是跨步骤的“状态维护”,需要对中间决策产生的连锁影响保持可追踪、可校验。其三,很多优惠、交通、行程安排具有组合爆炸特征,局部看似合理的选择,放到全局可能导致成本上升或时间冲突。上述因素叠加,使得即便在一般推理任务上表现出色的模型,也可能在“长期一致、全局最优”的要求下暴露弱项。 影响:评测方法的迭代,正在推动行业从“模型能力展示”走向“应用可靠性验证”。DeepPlanning这类基准的推出,一上为企业选型、产品上线提供了更贴近业务的衡量尺度,有助于旅行、零售、客服运营、供应链等场景中识别风险点,避免“看起来会、用起来不稳”的落差;另一上也可能促使研发方向从单纯追求生成质量,转向可控性、稳定性与可验证性建设,推动智能体从“能说”迈向“能做、做对、持续做对”。同时,测试结果提示业界:在高风险或高成本任务上,盲目追求自动化可能带来预算超支、行程冲突、优惠误用等现实损失,必须建立更严格的校验与监控机制。 对策:提升长周期规划能力,需要“数据—算法—工程—治理”协同发力。数据层面,应扩大高质量、多约束、可验证的规划样本供给,并形成标准化评测与对比体系;算法层面,可强化对硬约束的显式建模,提升多目标优化与一致性维护能力,减少中后段偏离目标的概率;工程层面,建议在实际产品中引入规则校验、外部工具计算与回溯机制,对预算、时间、库存、优惠等关键变量进行实时核对,并保留“人工兜底”与风险提示;治理层面,应围绕可解释性、可追责性与可审计性建立机制,使智能体在复杂决策中做到可控、可管、可靠。 前景:基准测试的开源与行业共建,或将成为推动智能体走向成熟的重要抓手。阿里千问宣布已在Hugging Face与ModelScope平台开源DeepPlanning数据集,为研究机构与开发者提供了可复用的评测基础。随着更多面向真实任务的评测出现,行业竞争将不再只看“答题分数”,而更看重在长链条任务中的稳定执行与边界遵守能力。可以预见,未来一段时期,围绕“全局规划、长期一致、约束可控”的技术攻关将持续升温,智能体能力也将从单点突破迈向系统化提升。
DeepPlanning基准测试的推出,反映了AI发展正从单点突破转向系统能力建设。随着智能系统持续规划能力的提升,将为人机协作开辟新空间,为数字经济发展提供新动力。