阿里发布千问旗舰推理模型Qwen3-Max-Thinking 万亿参数支持工具调用

当前，全球人工智能竞争持续升温，大模型的推理能力已成为衡量技术水平的重要标尺。阿里巴巴此次发布的千问旗舰推理模型，说明了国内大模型技术的最新进展，也显示出我国高端人工智能领域的自主创新能力在深入提升。从技术指标看，Qwen3-Max-Thinking在多个关键维度实现提升。模型总参数规模超过万亿，并通过更大规模的强化学习后训练与推理技术创新，带来明显的性能跃升。在19项权威基准测试中，该模型整体表现可与国际顶尖模型对标，尤其在GPQA Diamond科学知识测试、IMO-AnswerBench数学推理测试、LiveCodeBench代码编程测试等核心基准上表现突出，达到国际领先水平。模型的核心创新主要体现在两上。其一是自适应工具调用能力。不同于传统模式需要用户手动选择工具，Qwen3-Max-Thinking可在对话过程中自主判断并调用内置功能，包括搜索引擎、记忆库和代码解释器等。该能力来自专门设计的训练流程：在完成初步工具使用微调后，模型又在多样化任务上进行基于规则与模型反馈的进一步训练。实验结果显示，搜索与记忆工具可有效缓解模型幻觉、支持实时信息获取，并增强回复的个性化程度；代码解释器则支持执行代码片段，帮助用户以计算推理方式处理更复杂的问题。其二是测试时扩展技术，即在推理阶段分配额外计算资源以提升效果。阿里团队提出经验累积式、多轮迭代的测试时扩展策略：与单纯增加并行推理路径不同，该方法控制并行路径数量，把节省的计算资源投入到由“经验提取”机制引导的迭代自我反思中。该机制会从既往推理轮次提炼关键信息，避免重复推导已得结论，将注意力集中到仍存在不确定性的部分。相比直接引用原始推理轨迹，这一方式提高了上下文利用效率，使模型在相同上下文窗口内更充分整合历史信息。在token消耗大致相当的情况下，该方法持续优于标准的并行采样与聚合方案。从应用价值看，Qwen3-Max-Thinking的发布意义突出。幻觉问题的明显降低，为解决真实复杂任务提供了更可靠的基础；自主工具调用能力增强后，模型可更接近专业工作流，在“使用工具—思考—回答”的过程中给出更贴合需求、更加顺畅的回应。这些改进将进一步拓展其在科学研究、工程设计、数据分析等专业场景的应用空间。目前，Qwen3-Max-Thinking已通过多个渠道向用户开放。用户可在Qwen Chat平台直接与模型及其自适应工具调用功能交互，也可通过阿里云百炼平台调用相应API接口。更开放的使用方式有助于带动产业生态，吸引更多开发者与企业参与应用探索。从产业竞争格局看，国内大模型企业在推理能力、工具调用、幻觉控制等方向的持续突破，折射出我国人工智能技术的快速进展。这些创新不仅提升了模型能力，也为各行业的数字化转型与智能升级提供了更直接的技术支撑。

在全球科技竞争加速的背景下，核心技术的自主创新更显关键。此次突破既展示了企业的研发能力，也为人工智能技术的落地应用打开了新的空间。未来，随着技术迭代与生态完善，我国有望在人工智能领域实现从跟跑到并跑、领跑的更多跨越。