Anthropic搞了个大动作,Claude Opus 4.5这个AI模型在自家的编码测试里直接把人类都给秒了,实力真的是太强了。你知道这个测试有多难吗?是Anthropic专门给未来工程师设计的“难度爆表”的两小时工程考试,主要看在时间紧的情况下你有没有技术和判断力。这次Anthropic的新AI模型在编码上就超越了人类考生,他们在这次发布里是这么说的。Anthropic在周一把Claude Opus 4.5推出来了,把它吹成是目前最先进的AI模型,还说这个新家伙在公司那种特别难的“家庭作业”考试里拿了最高分。Anthropic在博客里说,那个两小时的作业虽然不能完全代表工程师所有技能,但AI在重要技术技能上确实比优秀人类候选人做得更好,这让大家都在琢磨AI以后会怎么改变工程师的职业。这个结果是怎么来的呢?Anthropic说他们是让模型反复解决同一个问题,然后挑出最好的答案。至于那个测试到底考了啥内容,公开的信息少得可怜。Glassdoor上有篇2024年的面试评论提过,测试有四个级别,还要候选人实现一个系统并加点功能。现在也不知道Claude 4.5考的是不是这种类型的题。Anthropic在博客里没细讲细节,也没回应媒体的询问。这次推出的Claude 4.5是上一版本过了三个月才出来的。除了编码这块厉害外,新版本在做Excel表格、PowerPoint演示文稿这些专业文档时也提升了不少。这让Anthropic在AI编码领域的地位更加稳固了。就算是马克·扎克伯格的Meta也在用Claude来帮Devmate这个内部编码助手干活,虽然两家公司在AI竞赛里也是竞争对手。Anthropic一直守口如瓶他们的训练方法是什么样的。Bolt.new的创始公司Stackblitz的CEO Eric Simons之前告诉《商业内幕》,他觉得Anthropic是让AI独立写代码然后发布出去的,公司再靠人跟工具一起把关。Anthropic的产品管理和研究部门老大Dianne Penn也说了,Eric说的基本上是对的。十月份的时候Anthropic CEO Dario Amodei在Dreamforce大会上说Claude已经帮公司大部分团队写了90%的代码了。不过Amodei也说了,他们不会拿这个机器人去取代软件工程师。“如果Claude写了90%的代码,那通常意味着你还是需要同样多的工程师。”Amodei解释道,“因为有了AI的帮忙他们才能更高效地工作。”他们能专注于那剩下的10%的代码修改、或者写最难的那部分、或者负责盯着一组AI模型干活。