美团开源“重思考”大模型LongCat升级版发布多项评测领先聚焦工具调用泛化

在人工智能技术深度赋能产业转型的背景下，工具调用能力的泛化水平成为制约智能体应用落地的关键瓶颈。

传统模型面对复杂任务时普遍存在推理路径单一、新工具学习成本高等问题，美团此次发布的开源解决方案为此提供了突破性思路。

技术团队创新性地构建了"双阶段闭环推理"架构。

在并行思考阶段，系统可生成八条独立推理路径，通过算法保障思维多样性；在归纳阶段则采用强化学习机制优化决策质量。

这种类人的多角度思考模式，使模型在τ²-Bench等工具调用测试中取得88.2分的开源最优成绩，较主流商业系统降低约40%的新工具适配耗时。

性能测试数据显示，该系统在数学推理领域表现尤为亮眼。

在美国数学邀请赛（AIME）模拟测试中获得满分，在国际数学奥林匹克（IMO）基准测试中以86.8分创下新纪录。

研究团队开发的自动化任务合成评测体系证实，面对随机生成的复杂场景任务，该系统在83%的案例中保持稳定性能输出。

行业专家指出，该技术的开源将显著降低智能体应用的开发门槛。

美团技术负责人表示，系统已部署于本地生活服务场景的智能调度系统，预计年内可节约千万级工具开发成本。

值得注意的是，团队同步公开了完整的训练数据集和模型权重，这种开放共享模式有望推动行业技术标准的建立。

LongCat-Flash-Thinking-2601的发布标志着开源大模型在推理能力和实用性上的重要进展。

这不仅是一项技术突破，更反映了国内科技企业在基础模型创新上的执行力和决心。

随着更多高质量开源模型的涌现，开发者将拥有更多选择，智能体应用的落地成本也将大幅下降。

展望未来，如何进一步提升模型的效率、可靠性和安全性，如何在更多垂直领域实现突破，将是摆在整个行业面前的新课题。

美团开源“重思考”大模型LongCat升级版发布 多项评测领先聚焦工具调用泛化