最近,我国在大型语言模型推理能力这方面取得了突破性进展,好多性能指标都达到了国际领先水平。人工智能技术现在是全球科技竞争和产业变革的核心驱动力。这次发布的千问旗舰推理模型Qwen3-Max-Thinking,在涉及深度科学知识理解、复杂数学问题求解还有高级代码生成的测试里,表现都特别亮眼。这个模型不仅在通用知识层面表现好,而且在需要深度逻辑思维和多步骤规划能力的任务上,能力边界也得到了拓展。还有个叫“测试时扩展”的新机制也不错,让模型可以在推理过程中动态进行自我优化。这为提升大模型解决现实问题的实用性提供了新思路。 在国际基准测试中,这个国产模型Qwen3-Max-Thinking综合表现超越了当前国际顶尖模型。比如在HLE高阶工具调用评测、GPQA Diamond科学知识测试、IMO-AnswerBench数学推理测试还有LiveCodeBench代码编程测试里,都刷新了全球纪录。这次突破的核心在于模型推理范式的革新,给了模型像人类专家一样思考的能力。 在系统层面也有不少提升。这个模型参数规模大还经过了超大规模强化学习训练后训练得很完善了。它的原生智能体Agent能力也变强了很多,可以灵活调用外部工具辅助解决问题。它的“幻觉”现象也减少了很多,这对科研辅助、教育还有决策支持这些对准确性要求高的领域特别有用。 目前这个体验版本已经开放给大家试用了。让先进技术成果能被更多人检验并且服务大众是我国发展的原则。这次突破展现了我们坚持基础研究和核心技术攻关的决心。 这次成功是个新起点,期待未来科研力量能持续深耕推动人工智能技术更安全可靠高效地发展为我们国家提供更多竞争优势和科技支撑。