copilot 发布了一个新基准evoclaw,ai的表现就会像坐滑梯一样直往下掉

在2025年即将过去时,“辅助”属性的Copilot终于让位给了“自主”的Agent。虽然现在最强大的模型能很好地处理写函数或修Bug这类简单任务,但到了2026年初,OpenClaw的出现意味着Agent的进化又向前迈了一大步。它不仅能在聊天框里解决问题,还能作为一个长周期运行的系统存在。 要想彻底替代人类,AI必须像真正的程序员那样,根据需求和环境不断调整与真实世界交互的软件接口。不过这项愿景落地很难,因为现实中的软件开发可不是一次就能写完的代码生成过程,而是一场和时间还有复杂度没完没了的拉锯战。随着需求变动和代码库的膨胀,哪怕是早期埋下的小隐患也可能变成系统风险。 有位名叫唐相儒的研究人员和来自USC、UCR、Stanford还有Princeton的邓港大、陈炤伶、丛乐、王梦迪一起搞了个新基准EvoClaw。他们把开源项目里真实的代码变更历史给整理了出来,还重构了一个里程碑依赖图(Milestone DAG)。这种做法把零散的提交合成为功能连贯的节点,并严格保持了任务之间的代码时序关系。 实验结果显示,一旦从单纯的修Bug变成持续演进的复杂开发场景,AI的表现就会像坐滑梯一样直往下掉。得分从80%以上猛跌到最高不到40%,这说明它们离真正胜任长期、连续、自主的软件演进工作还很远。这次发布的EvoClaw其实是一次非常重要的Milestone。