数据还揭示了一个有趣现象：robochallenge 平台把这些失败案例记录下来并开源共享给大家使用

最近，全球第一个专门评估AI智能的真机评测平台发布了一份年度报告。这次报告揭示了一个重要现象：AI正从文本和代码领域的“数字智能”，向着可以处理物理世界事务的“物理智能”发展。虽然大语言模型在文本和代码上表现出色，但要让AI在真实的物理世界中有效地行动，依然面临巨大挑战。一直以来，评估机器人在现实场景中的智能水平非常困难，因为成本高、标准不一且难以复现。大多数研究都局限于仿真环境或有限的演示。然而，这次评测平台给大家带来了希望。这个平台是由原力灵机和Hugging Face联手打造的，名叫RoboChallenge。他们把国内外顶尖科研机构和产业力量汇聚在一起，用20台UR5和Franka Panda等主流机型组成一个真实机器人集群，完成了数万次远程测试。这个报告的价值不仅在于结论，更在于它是通过真实的远程测试得到的。这个平台提供了一个衡量AI在现实世界中智能水平的可靠标尺。报告指出，在简单的任务上，比如叠碗和把物体移入盒子，AI模型已经显示出初步成熟性。这些任务成功率较高，显示出AI在理解简单指令和完成基本动作方面取得了进步。但随着任务变得更复杂，比如按颜色整理散落纸杯或者制作三明治时，AI模型的表现就不如人意了。这些任务需要机器人在动态环境中进行多步骤决策和长期规划。目前参与评测的模型整体成功率很低，甚至接近零。即使是表现最好的模型，整体任务成功率也只有50%左右。数据还揭示了一个有趣现象：参测模型理解自然语言指令能力很强，但在把理解转化为高精度动作执行时表现出明显断层。精细操作任务的平均成功率不足15%。 RoboChallenge平台把这些失败案例记录下来并开源共享给大家使用。这些真实失败案例给全球研究团队提供了重要反馈，帮助他们迭代优化模型和探寻失败根源。为了确保评测的公正性和权威性，RoboChallenge平台从一开始就致力于构建开放协作生态。2025年11月成立了组委会，智源研究院、清华大学、西安交通大学等机构深度参与制定标准和任务设计。 RoboChallenge年度报告的发布是个重要里程碑，标志着人工智能从“数字孪生”迈向“物理融合”。这个报告用数据证明了标准化真机评测体系可以帮助产学研各方聚焦核心问题并协同攻关。未来这个平台还会不断进化引入更多机器人类型扩展到工业质检、家庭服务等场景并设计更具挑战性的任务来提升规模与效率。通过真实物理交互数据铺就的评测之路正为加速具身智能的务实发展点亮前进方向。