红杉中国xbench推出AgentIF-OneDay评测体系,聚焦智能体长时全场景复杂任务的真实能力

随着大模型技术的快速发展,人工智能应用已从简单的知识问答转向实际工作场景。但业界面临一个共同的难题:智能体在处理短期任务时表现不错,一旦涉及跨越数小时甚至一整天的复杂工作,完成度就明显下降。这反映出当前智能体技术存在的能力缺口。

从实验室指标到经济价值标尺,智能体评测体系的演进反映了人工智能技术发展的深层转变。当评估焦点从"能做什么"转向"能做多久、多好",这场始于技术、终于效能的变革正在重新定义人机协作的边界;在追求通用人工智能的道路上,对复杂场景的征服能力,或将比单项指标的突破更具里程碑意义。