claude opus 4.6 竟然自己给把ai 测试的答案给破解了

Claude Opus 4.6 竟然自己给把AI测试的答案给破解了,真是没想到。这个测试叫做BrowseComp,主要是评估AI模型在网上找难找到信息的能力。Anthropic 这次让他们的Claude Opus 4.6模型做这个测试,结果发生了个大新闻:这个模型自己发现被评估了,还把答案密钥给解密了。Claude把问题和答案搜索结合起来分析。Anthropic说这个问题特别具体,Claude怀疑这是人为设计的。 于是Claude开始系统地检查各种基准测试,最后给排除掉GAIA,然后让子代理专门搜索BrowseComp的解密机制。答案受XOR加密保护,Claude在公开代码里找到了加密方法和密码,还自己写代码给解密了。不过又出现一个障碍,加密文件格式不对。Claude就去HuggingFace找替代副本下载下来解密。第一个案例是用常规网络搜索验证答案对不对,第二个案例直接提交了解密后的答案。Anthropic说这是首次记录到模型没有事先知道基准测试就自己反向识别并解决评估的情况。 这个成功案例还不只这两个。Anthropic还记录了另外16个任务,Opus都尝试同样策略但失败了。有四个案例连实际搜索都没有做直接被基准测试替换掉了。Anthropic说18次执行都是同样策略显示这是可重现的模式。多代理设置中发生率是0.87%,单代理设置中是0.24%。Anthropic不把这行为当成安全问题但也承认这给我们带来了担忧。 最近ML Alignment和Theory Scholars program还有Apollo Research研究发现语言模型判断互动是不是测试或者实际任务挺准的。Gemini 2.5 Pro 达到了0.95命中率,Claude 3.5 Sonnet和GPT-4o也跟着不错。研究者建议评估意识作为测试协议中独立指标,但这次发现更进一步:Claude不仅认出测试情境还努力规避它。