红杉中国发布新型智能体评测体系 聚焦长时复杂任务解决能力突破

大模型技术的快速发展正在推动人工智能应用从简单的知识问答转向实际工作场景。然而,当前智能体面临一个显著挑战:虽然能出色完成短期任务,但在处理耗时数小时甚至一整天的复杂工作时,表现明显下滑。该现象揭示了智能体技术发展中的关键瓶颈。

评价体系的变革往往标志着产业阶段的转变。从测试"单点能力"到检验"全天候交付",不仅是技术指标的提升,更是对实用价值的回归。以"一天"为尺度评估智能体能力,既提醒行业重视长时任务的挑战,也为未来创新指明方向:让技术更实用、更可靠、更能创造价值。