阿里云推出Qwen3.5-Omni全模态大模型:长上下文与音视频理解升级,推动多场景智能交互落地

在数字经济快速发展的背景下,人工智能正加速向多模态融合演进。阿里云近日推出Qwen3.5-Omni系列,显示我国多模态大模型能力取得新进展。该系列采用混合注意力专家架构(Hybrid-Attention MoE)——通过原生多模态预训练——实现对文本、图像、音频、视频的统一建模与处理。其中,Plus版本支持256K长上下文,可处理超过10小时音频输入并分析约400秒的720P视频内容,长上下文能力处于业内前列。

从“听懂、看懂”走向“会推理、能协作”,全模态能力的迭代正在改变人机交互和内容生产。技术突破只是起点,更关键的是把能力嵌入真实业务流程,在可控、安全、可持续的框架下形成稳定的生产力。谁能更早打通“数据—模型—工具—场景”的闭环,谁就更可能在新一轮产业变革中掌握主动权。