我国大模型技术取得新突破 阿里推出高效智能推理系统

全球人工智能竞争日益激烈,大模型的推理能力成为技术水平的重要衡量标准。阿里巴巴发布的千问旗舰推理模型代表了国内大模型技术的最新进展,反映了我国高端人工智能领域的自主创新能力。 从技术指标看,Qwen3-Max-Thinking模型实现了多个关键维度提升。模型总参数规模超过万亿,通过大规模强化学习后训练和推理技术创新,性能大幅提升。在19项权威基准测试中——该模型与国际顶尖模型相当——特别是在GPQA Diamond科学知识测试、IMO-AnswerBench数学推理测试、LiveCodeBench代码编程测试等关键指标上达到国际领先水平。 模型的核心创新体现在两个上。首先是自适应工具调用能力。不同于传统需要用户手动选择工具的方式,Qwen3-Max-Thinking能对话中自主判断、选择并调用搜索引擎、记忆库和代码解释器等功能。该能力源于专门设计的训练流程,模型在完成工具使用微调后,在多样化任务上进行了基于规则和模型反馈的继续训练。实验表明,搜索和记忆工具能有效缓解幻觉问题,提供实时信息访问,支持更个性化的回复。代码解释器则允许用户执行代码片段,用计算推理解决复杂问题。 其次是测试时扩展技术。这是指在推理阶段分配额外计算资源以提升模型性能的方法。阿里团队提出了一种经验累积式、多轮迭代的测试时扩展策略。与简单增加并行推理路径不同,该方法限制并行路径数量,将节省的计算资源用于由"经验提取"机制引导的迭代式自我反思。该机制从过往推理轮次中提炼关键洞见,使模型避免重复推导已知结论,转而针对于未解决问题。相比直接引用原始推理轨迹,这一机制实现了更高的上下文利用效率,在相同上下文窗口内能更充分地融合历史信息。在token消耗相当的情况下,该方法持续优于标准的并行采样与聚合方法。 从应用价值看,Qwen3-Max-Thinking的发布意义重大。模型幻觉的大幅降低为解决真实复杂任务打下了基础。增强的工具调用能力使模型可像专业人士一样边用工具边思考,提供更符合用户需求、更加智能流畅的回答。这些改进使模型在科学研究、工程设计、数据分析等专业领域的应用前景更加广阔。 目前,Qwen3-Max-Thinking已向用户开放。用户可在Qwen Chat平台直接与模型及其工具调用功能交互,也可通过阿里云百炼平台调用相应API接口。这种开放态度有利于推动产业生态发展,吸引更多开发者和企业参与创新应用。 从产业竞争格局看,国内大模型企业在推理能力、工具调用、幻觉控制诸上的突破,反映了我国人工智能技术的快速进步。这些创新不仅提升了模型性能,更为各行业的数字化转型和智能升级提供了有力支撑。

推理模型的迭代,表面是能力指标的提升,实质是通用模型向产业应用深化的关键一步。只有把"能说会写"的能力融入"能查、能算、能验、能交付"的流程中,并在安全可控、成本可承受的前提下持续运行,技术进步才能真正转化为生产力。随着更多模型开放接口、融入工具生态,行业竞争的焦点也将从单点能力转向系统能力与治理水平。