copilot 发布了一个新基准evoclaw，ai的表现就会像坐滑梯一样直往下掉

在2025年即将过去时，“辅助”属性的Copilot终于让位给了“自主”的Agent。虽然现在最强大的模型能很好地处理写函数或修Bug这类简单任务，但到了2026年初，OpenClaw的出现意味着Agent的进化又向前迈了一大步。它不仅能在聊天框里解决问题，还能作为一个长周期运行的系统存在。要想彻底替代人类，AI必须像真正的程序员那样，根据需求和环境不断调整与真实世界交互的软件接口。不过这项愿景落地很难，因为现实中的软件开发可不是一次就能写完的代码生成过程，而是一场和时间还有复杂度没完没了的拉锯战。随着需求变动和代码库的膨胀，哪怕是早期埋下的小隐患也可能变成系统风险。有位名叫唐相儒的研究人员和来自USC、UCR、Stanford还有Princeton的邓港大、陈炤伶、丛乐、王梦迪一起搞了个新基准EvoClaw。他们把开源项目里真实的代码变更历史给整理了出来，还重构了一个里程碑依赖图（Milestone DAG）。这种做法把零散的提交合成为功能连贯的节点，并严格保持了任务之间的代码时序关系。实验结果显示，一旦从单纯的修Bug变成持续演进的复杂开发场景，AI的表现就会像坐滑梯一样直往下掉。得分从80%以上猛跌到最高不到40%，这说明它们离真正胜任长期、连续、自主的软件演进工作还很远。这次发布的EvoClaw其实是一次非常重要的Milestone。