字节跳动推出形式化数学推理模型Seed Prover 1.5 多项评测刷新纪录并开源技术报告

在全球人工智能技术竞速的背景下,数学推理能力被视为衡量智能系统认知水平的重要标尺。

最新测试数据显示,Seed Prover 1.5模型仅用16.5小时即完成IMO标准下5道赛题的完整形式化证明,其42分制评分达到35分的金牌分数线。

这一成绩较前代模型提升显著,特别是在证明生成速度方面实现数量级突破。

技术突破源于三方面创新:首先,团队采用增强学习框架优化了定理搜索策略,使系统能更高效遍历数学解空间;其次,针对形式化验证特有的语法约束,开发了动态编译校验机制;最后,通过引入竞赛级数学题库进行对抗训练,显著提升了模型处理复杂命题的能力。

在更具实践意义的普特南大学数学竞赛测试中,该模型对2025年赛题的解题成功率达91.6%(11/12),在历史题库综合测试中保持88%的稳定表现。

值得注意的是,其解题过程能同步输出符合Lean语言规范的可验证代码,这为数学教育智能化提供了新可能。

目前,该技术已在代数拓扑、数论等前沿数学分支展开应用测试。

行业专家指出,此类技术的突破将重塑数学研究范式。

一方面可辅助数学家验证复杂猜想,另一方面能加速数学教材的智能化编撰。

团队表示,后续将开放API接口并建立学术合作机制,推动技术成果向基础研究领域转化。

数学是自然科学的基础,形式化推理能力的提升不仅是技术进步的标志,更是人类探索未知、追求真理的重要工具。

此次国产模型在国际权威测试中的优异表现,展示了我国科技创新的潜力与韧性。

在全球科技竞争日趋激烈的背景下,坚持自主研发、开放合作、务实创新,方能在基础科学与前沿技术的交汇点上占据主动,为构建人类知识体系贡献中国智慧。