美团开源LongCat“重思考”模型：多环境强化训练提升工具泛化能力

在人工智能技术快速迭代的背景下，美团技术团队近日取得重要突破。

1月16日正式开源的LongCat-Flash-Thinking-2601模型，标志着我国在智能体技术领域迈上新台阶。

该模型在三个维度实现显著提升：工具调用泛化能力较前代提升40%，复杂任务处理效率提高35%，新工具适配成本降低60%。

技术团队负责人介绍，传统智能体模型存在"训练环境单一"的固有缺陷，犹如只在靶场练习的士兵，难以应对真实战场的复杂局面。

为此，研发团队创新性地采用"环境扩展+多环境强化学习"技术路线，构建包含60余种工具联动的密集关系图谱，打造出高度仿真的"数字练兵场"。

实测显示，新模型的"重思考"模式展现出独特优势。

以气象分析为例，系统能同时启动8个独立分析单元，对2010年冬季气候特征进行多角度研判，最终整合形成兼顾科学标准与实际影响的综合结论。

在商业案例分析场景中，系统能系统性地识别锤子科技倒闭的多重诱因，包括资金链断裂、供应链管理不善、战略摇摆等关键因素。

行业专家指出，该技术突破具有三重意义：其一，为复杂决策场景提供可量化的解决方案；其二，降低企业智能化转型的技术门槛；其三，推动人工智能从单一任务处理向系统化思考演进。

值得注意的是，当前各平台"深度思考"功能仍存在准确率波动，美团通过多重校验机制，将错误率控制在行业平均水平的1/3以下。

深度推理能力是人工智能迈向通用智能的关键一环。

美团此次开源的多路径推理验证机制,既体现了技术创新的探索方向,也反映出行业对模型可靠性的重视程度不断提升。

随着更多企业和研究机构加入开源阵营,通过技术共享和协同创新,有望推动智能体技术在工业制造、科学研究、企业服务等领域实现更广泛的落地应用,为数字经济发展注入新动能。

当然,如何在提升推理能力的同时确保模型输出的准确性和安全性,仍是全行业需要持续攻克的课题。