阿里发布千问旗舰推理模型Qwen3-Max-Thinking 推动工具调用能力迈向智能体应用新阶段

阿里巴巴集团1月26日晚宣布推出千问系列最新旗舰产品Qwen3-Max-Thinking推理模型。

这一新型大模型的发布，代表了国内人工智能技术在基础模型领域的最新进展，也标志着千问系列模型在规模、能力和应用场景上的全面升级。

从技术规模看，Qwen3-Max-Thinking模型总参数量突破万亿级别，预训练数据量达到36T Tokens，成为阿里目前规模最大、能力最强的推理模型。

这一规模的扩大为模型性能的提升奠定了基础。

在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19个国际公认的大模型基准测试中，该模型刷新了多项最佳表现纪录，整体性能可与GPT-5.2-Thinking、Claude Opus 4.5和Gemini 3 Pro等国际顶尖模型相媲美。

本次模型更新的核心创新在于引入了两项关键技术。

其一是自适应工具调用能力。

不同于以往需要用户手动选择工具的方式，Qwen3-Max-Thinking可以根据任务需求自主判断并调用内置的搜索、记忆和代码解释器等功能。

这意味着模型能够自动决策是否需要联网查询，无需用户手动干预，从而显著降低信息幻觉风险，提升回复的准确性和个性化程度。

其二是测试时扩展技术。

该机制通过从历史推理过程中提炼关键洞见，使模型避免重复推导已知结论，转而集中处理未解决的不确定性问题。

相比直接引用原始推理轨迹，这一机制实现了更高的上下文利用效率，在相同的token消耗下能够提升模型性能，特别是在处理复杂长链条问题时优势明显。

在国际基准测试中，Qwen3-Max-Thinking展现出明显的竞争优势。

在中文权威测评C-Eval中，该模型以93.7分稳居全球第一，对古文典籍、政策解读、方言语境等复杂中文表达的理解能力超越国外同类产品。

在对抗性复杂交互测试Arena-Hard v2中，模型得分达90.2分，大幅领先GPT-5.2的85.3分和Gemini 3 Pro的81.7分，能够精准捕捉用户的隐含需求，提供接近真人对话质感的回复。

在智能体工具搜索测试HLE中，Qwen3-Max-Thinking以49.8分夺冠，超越GPT-5.2-Thinking版本，真正实现了无需人工指挥即可自主选择工具、查询信息、编写代码的能力。

这些成绩的取得反映了阿里在大模型研发上的持续投入和技术积累。

千问团队通过在大量多样化任务上进行基于规则奖励与模型奖励的联合强化学习训练，使模型具备了更智能的工具使用和思考能力。

这种方法论的创新为模型在实际应用中的表现提供了有力支撑。

从应用生态看，Qwen3-Max-Thinking已实现多渠道开放。

开发者可在QwenChat上免费体验该模型，企业用户可通过阿里云百炼获取API服务，普通用户也可通过千问PC端和网页端试用。

千问APP也将接入新模型，使所有用户都能体验这一旗舰产品。

此前阿里已宣布千问APP全面接入淘宝、支付宝等生态应用，新模型的推出将进一步增强这些应用的智能化水平。

值得注意的是，千问负责人林俊旸表示，Qwen3-Max-Thinking代表着Qwen3系列模型的收尾，千问团队将随后启动下一代模型的开发工作。

这表明阿里在大模型领域的技术迭代已进入新的阶段，未来的产品升级空间仍然广阔。

随着人工智能技术的快速发展，Qwen3-Max-Thinking的问世不仅展现了我国科技企业的创新能力，也为人工智能在各行业的深度应用提供了新的可能。

未来，如何将技术优势转化为实际生产力，值得持续关注。