阿里发布千问旗舰推理模型Qwen3-Max-Thinking 万亿参数支持工具调用

当前,全球人工智能竞争持续升温,大模型的推理能力已成为衡量技术水平的重要标尺。阿里巴巴此次发布的千问旗舰推理模型,说明了国内大模型技术的最新进展,也显示出我国高端人工智能领域的自主创新能力在深入提升。 从技术指标看,Qwen3-Max-Thinking在多个关键维度实现提升。模型总参数规模超过万亿,并通过更大规模的强化学习后训练与推理技术创新,带来明显的性能跃升。在19项权威基准测试中,该模型整体表现可与国际顶尖模型对标,尤其在GPQA Diamond科学知识测试、IMO-AnswerBench数学推理测试、LiveCodeBench代码编程测试等核心基准上表现突出,达到国际领先水平。 模型的核心创新主要体现在两上。其一是自适应工具调用能力。不同于传统模式需要用户手动选择工具,Qwen3-Max-Thinking可在对话过程中自主判断并调用内置功能,包括搜索引擎、记忆库和代码解释器等。该能力来自专门设计的训练流程:在完成初步工具使用微调后,模型又在多样化任务上进行基于规则与模型反馈的进一步训练。实验结果显示,搜索与记忆工具可有效缓解模型幻觉、支持实时信息获取,并增强回复的个性化程度;代码解释器则支持执行代码片段,帮助用户以计算推理方式处理更复杂的问题。 其二是测试时扩展技术,即在推理阶段分配额外计算资源以提升效果。阿里团队提出经验累积式、多轮迭代的测试时扩展策略:与单纯增加并行推理路径不同,该方法控制并行路径数量,把节省的计算资源投入到由“经验提取”机制引导的迭代自我反思中。该机制会从既往推理轮次提炼关键信息,避免重复推导已得结论,将注意力集中到仍存在不确定性的部分。相比直接引用原始推理轨迹,这一方式提高了上下文利用效率,使模型在相同上下文窗口内更充分整合历史信息。在token消耗大致相当的情况下,该方法持续优于标准的并行采样与聚合方案。 从应用价值看,Qwen3-Max-Thinking的发布意义突出。幻觉问题的明显降低,为解决真实复杂任务提供了更可靠的基础;自主工具调用能力增强后,模型可更接近专业工作流,在“使用工具—思考—回答”的过程中给出更贴合需求、更加顺畅的回应。这些改进将进一步拓展其在科学研究、工程设计、数据分析等专业场景的应用空间。 目前,Qwen3-Max-Thinking已通过多个渠道向用户开放。用户可在Qwen Chat平台直接与模型及其自适应工具调用功能交互,也可通过阿里云百炼平台调用相应API接口。更开放的使用方式有助于带动产业生态,吸引更多开发者与企业参与应用探索。 从产业竞争格局看,国内大模型企业在推理能力、工具调用、幻觉控制等方向的持续突破,折射出我国人工智能技术的快速进展。这些创新不仅提升了模型能力,也为各行业的数字化转型与智能升级提供了更直接的技术支撑。

在全球科技竞争加速的背景下,核心技术的自主创新更显关键。此次突破既展示了企业的研发能力,也为人工智能技术的落地应用打开了新的空间。未来,随着技术迭代与生态完善,我国有望在人工智能领域实现从跟跑到并跑、领跑的更多跨越。