我国科研团队开源新一代语音识别模型 多语种处理能力达国际领先水平

阿里千问团队日前宣布开源Qwen3-ASR系列语音识别模型,这是继多模态大模型之后在语音识别领域的重要突破。

该系列包括Qwen3-ASR-1.7B、Qwen3-ASR-0.6B两个核心识别模型,以及Qwen3-ForcedAligner-0.6B强制对齐模型,形成了从识别到精准时间戳标注的完整解决方案。

从语言覆盖范围看,Qwen3-ASR系列模型支持30个语种的语种识别与语音识别,涵盖22个中文口音与方言,以及多个国家和地区的英文口音。

这一广泛的多语种支持能力,使其在全球应用场景中具有显著优势,特别是对中文方言和口音的识别精度超越了现有商业API服务水平。

在识别精度方面,1.7B模型展现出全面领先的性能表现。

该模型在中文、英文、中文口音以及歌唱识别等复杂场景下均达到业界先进水平,具备强大的复杂文本识别能力和强噪声环境下的稳定性。

相比主流开源模型和众多商用API,其识别准确率实现了显著提升,特别是在歌唱识别这一具有挑战性的应用场景中表现突出。

在处理效率方面,0.6B模型实现了性能与效率的最优平衡。

该模型在保证识别准确率的前提下,支持128并发异步服务推理,吞吐量达到2000倍,即10秒钟可处理5小时以上的音频。

这一高效的处理能力使其特别适合大规模商业应用和实时服务场景。

两个模型均支持流式和非流式一体化推理,最长可一次性处理20分钟的连续音频。

创新的强制对齐模型Qwen3-ForcedAligner-0.6B采用非自回归推理逻辑,支持11个语种在5分钟内对任意语音单元进行精准的时间戳预测。

其时间戳预测精度超越了传统端到端方案的同类模型,单并发推理实时因子达到0.0089,确保了推理的高效性。

这一创新设计为语音内容的精准标注和后续处理提供了有力支撑。

从技术基础看,Qwen3-ASR系列模型依托创新的预训练AuT语音编码器和Qwen3-Omni基座模型的强大多模态能力。

这种技术架构使模型能够在复杂的声学环境和多样化的文本模式下保持稳定鲁棒的识别性能,为各类应用场景提供可靠的技术支撑。

在开源生态方面,阿里千问团队不仅开源了模型的结构与权重,还同步推出了强大且全面的推理框架。

该框架支持基于vLLM的批量推理、异步服务、流式推理和时间戳预测等多种功能,大幅降低了开发者的使用门槛,有利于推动语音识别技术的广泛应用和创新发展。

开源语音识别模型的价值,不仅在于刷新某项指标,更在于把关键能力以可复用的方式释放给产业与科研共同体。

面向更复杂的语言环境与更细分的行业需求,唯有在开放协作中不断完善数据治理、评测体系与安全合规边界,语音技术才能从“可用”走向“可靠”,在提升效率的同时真正服务于更广泛的社会应用。