面壁智能开源全模态模型MiniCPM-o 4.5 推动端侧即时自由对话与多芯适配能力提升

问题——多模态大模型正从“会回答”走向“会协作”，但仍受交互时延和部署门槛制约。业内不少语音对话系统依然以回合制为主：用户说完、系统再答，交互节奏常变成“等一等、问一问”。复杂场景下，视觉理解、文档解析与语音输出往往被拆成多个模块串联，导致时延增加、体验割裂。另外，模型规模不断增大带来算力与显存压力，使其在端侧设备、行业专网等环境部署面临成本与能效约束。原因——场景需求升级与算力结构变化共同推动“低时延、可部署”的技术路线。一上，客服、陪伴、教育、办公助理等应用中，用户更希望系统能“边听边看边回应”，对话中还能保持上下文连续与语气一致；另一上——国内算力生态日益多元——企业不同芯片与平台上进行适配和优化已成常态。因此，原生多模态架构、实时流式处理、统一软件栈与高效推理方案，正成为模型从实验走向产品的关键基础设施。影响——开源全双工全模态能力或将加速产业协同与应用创新。据介绍，MiniCPM-o 4.5定位为原生全双工的全模态模型，强调在语音、视觉、文档等输入下实现“即时自由对话”，在对话过程中保持感知与输出的连续性，并引入主动交互机制，减少用户反复提示的负担。模型在约90亿参数规模下兼顾多任务能力与能效，主打更低显存占用与更快响应，以降低推理开销。语音上，模型通过新的设计与数据方法提升音色表现与拟人度，并针对长语音合成中的音色漂移、语气不自然等问题进行优化；同时支持基于秒级音频样本的声音克隆，并克隆音色基础上开展角色化语音对话。若在合规框架下规范使用，这些能力有望为内容生产、智能客服、数字人交互、无障碍辅助等方向提供更丰富的工具组合。对策——以“开源+适配+工程化”降低应用门槛，推动从指标走向产品。面壁智能此次在开源平台发布模型，有助于开发者与产业伙伴在评测、训练、微调与部署环节更快迭代。值得关注的是，依托统一系统软件栈的跨平台能力，该模型在天数智芯、华为昇腾、平头哥、海光、沐曦等多款芯片上实现端到端推理性能提升，显示出通过软件栈与工程优化释放算力的路径正在落地。对行业而言，下一步可在三上持续推进：其一，建立覆盖语音、图像、文档等场景的公开评测与安全评估体系，提升可比性与可控性；其二，围绕端侧与行业私有化部署加强量化、编译、推理加速与内存优化，增强“用得起、跑得动”的确定性；其三，完善数据合规与内容治理机制，尤其针对声音克隆等能力明确授权、标识与追溯措施，降低滥用风险。前景——全双工多模态与高能效将成为下一阶段竞争重点。随着大模型应用从“展示能力”转向“嵌入流程”，低时延交互、稳定输出与跨平台部署的重要性将继续上升。以较小参数规模实现强多模态能力，有助于模型更进入端侧设备、行业专网和实时交互场景；开源策略也可能带动工具链、插件生态与行业解决方案更快成熟。可以预期，围绕实时多模态、语音自然度、推理成本与安全治理的综合竞争，将影响大模型在更广泛产业场景中的落地深度。

MiniCPM-o 4.5的发布不仅反映了我国企业的研发能力，也反映出人工智能正向更自然、更高效的方向演进。在全球技术竞争背景下，这类突破有助于夯实自主可控的智能生态基础，并为数字经济高质量发展提供新的支撑。