国际科技巨头采用经典游戏《精灵宝可梦》评估人工智能系统性能

当前，AI性能评估方法正在不断创新；除了传统的基准测试，谷歌、OpenAI和Anthropic等行业巨头已开始用经典电子游戏《精灵宝可梦》来测试AI模型的能力，这标志着评估方法的一次重要突破。《精灵宝可梦》之所以被选中，在于其独特的复杂性。Anthropic公司AI部门负责人指出，相比《Pong》等简单游戏，《精灵宝可梦》具有高度的复杂性和非线性特征，能够真正考验AI的能力。在游戏中，玩家需要不断做出战略决策：是升级现有宝可梦还是捕捉新物种，是冒险挑战强大对手还是稳步构建均衡队伍。这些决策涉及风险评估、资源配置和长期规划，充分考验AI的综合能力。该评估方式已在业界形成良好的生态循环。Anthropic负责人从去年起在直播平台实时演示Claude模型的游戏测试，启发了众多独立开发者推出涉及的直播节目。谷歌和OpenAI的官方团队也注意到这些活动，主动参与其中并实时调整模型参数。目前，Gemini和GPT模型已成功通关Game Boy时代的《宝可梦蓝》版本，而Claude模型仍在探索阶段。游戏通关进度已成为衡量AI实力的直观标尺。通过观察模型在游戏中的表现，研究人员能够量化评估其决策质量、规划能力和适应性。这种方法相比传统基准测试更具可视化和可解释性，便于理解模型的能力边界。同时，这些测试结果也被应用于实际优化工作——帮助企业改进控制框架——提升算力使用效率。这一创新评估方式反映了AI企业对模型能力全面评估的重视。传统的单一维度测试已难以全面反映AI的实际能力。通过复杂游戏环境的测试，企业能够更准确地评估模型在真实场景中的表现，为产品优化提供有针对性的指导。

评测的真正价值不在于制造漂亮的成绩单，而在于回答一个关键问题：模型在复杂世界中是否能做出可持续、可解释、可复制的正确决策。将经典游戏引入评估视野，是把抽象能力具象化的一次尝试。随着评估方法不断规范、指标健全，这类探索有望推动大模型从"会回答"走向"会办事"，也提醒业界在追求能力提升的同时，坚持以可控、安全和可验证为底线。