阿里巴巴发布万相2.7视频生成模型矩阵:从素材生成迈向全流程可控创作

问题——近年来,视频生成技术清晰度、风格化呈现等进步明显,但在影视创作的关键环节仍有短板:一是叙事连贯性不足,镜头之间容易出现逻辑断裂、节奏失衡;二是角色一致性与动作可控性不够稳定,难以支撑持续演绎;三是后期编辑不够灵活,常见修改往往需要重新生成或进行繁琐的逐帧处理,试错成本随之增加。对内容行业而言,这些问题让生成式视频仍停留在“做片段”,距离“做作品”还有差距。 原因——这些短板既来自技术限制,也来自行业应用的现实需求。一上,视频创作本身维度复杂,涉及镜头语言、时间连续性、人物表演、环境变化以及音画同步等系统能力,单一模型很难同时兼顾“生成质量”和“导演式控制”。另一方面,影视、广告、短剧、游戏宣发等场景对可控性与可编辑性的要求更高,创作者希望保留创意自由的同时,获得可重复、可迭代的生产流程,这也对模型能力与工作流组织提出更高要求。 影响——基于此,阿里巴巴推出Wan2.7-Video系列模型,采用“多模型分工+统一工作流”的思路,覆盖从零创作到精细编辑的关键环节:文生视频模型用于从文本直接生成画面;图生视频模型强调以图像为锚点的画面控制;参考生视频模型面向动作、运镜、特效等要素的复刻与迁移;视频编辑模型则用于成片阶段的局部或整体调整。该系列支持文本、图像、视频、音频等多模态输入,提供720P、1080P等输出能力,并支持2至15秒的可设定时长,意在提升创作链路的可操作性与交付效率。 其中,视频编辑能力是该系列的重点方向之一。根据发布信息,创作者可用简短指令完成元素增删替换、场景环境切换、整体风格变换等操作,并可在一定范围内调整角色行为、表情与情绪,让修改方式更接近后期制作流程。对内容生产而言,这类“以改代重做”的能力直指后期修改成本高、沟通链路长的痛点,有望在短视频、广告物料、短剧剪辑、动画试片等场景降低迭代门槛。 在叙事控制上,发布信息显示该系列引入“视频续写与尾帧控制”的联动机制,使创作者延续动态内容的同时锁定结尾画面,减少传统首尾约束带来的突兀感,提升镜头衔接稳定性。运镜能力覆盖多种基础与组合方案,强调镜头语言与剧情内容的配合表达。参考生视频上,模型支持最多5个主体参考,并外观、音色与动作迁移上增强稳定性,试图拓展“同一角色持续表演”的能力边界。 对策——从行业发展看,提升视频生成的实用化水平,关键在于建立面向生产的能力体系:一是强化可控性,将镜头、表演、节奏、风格等要素转化为更可操作的参数与指令;二是强化一致性,尤其是角色形象、动作逻辑与音画同步的稳定输出;三是强化可编辑性,把“生成”纳入可迭代的制作流程,降低返工成本;四是强化工作流协同,让脚本、分镜、素材、剪辑、配音等环节衔接更顺畅。此次以四类模型覆盖“生成—复刻—编辑”的产品结构,说明了从单点能力转向全链路能力的补齐思路,也为行业探索“轻量化影视生产”提供了新的技术路径。 前景——总体而言,视频生成正从单纯追求“好看”转向更强调“好用”,从一次性生成转向可反复修改与持续演绎。未来竞争焦点可能集中在三上:其一,叙事与镜头语言的系统化控制能否继续提升,沉淀为可复用的创作方法;其二,多模态协同能力能否更稳定落地,尤其是音画一致性、口型与音色匹配等关键环节;其三,与真实生产场景的融合程度,包括版权合规、内容安全、行业规范以及与现有制作软件的衔接效率。随着短剧、品牌内容与线上娱乐对高频、低成本、快迭代的需求增长,具备全链路控制与后期编辑能力的工具化产品或将加速渗透;但要迈向更高水准的影视级制作,仍需长时叙事稳定性、复杂场景一致性与专业制作标准对齐等上持续突破。

从素材生成到创作执导,“万相2.7”系统的推出不仅表明了技术能力的提升,也提示内容生产方式正在发生变化。在数字化内容快速增长的背景下,如何处理技术创新与艺术创作的关系——形成更有效的人机协作——将是行业需要持续回答的问题。这个进展也显示出中国科技企业正通过自主创新,推动数字内容生产工具与产业链的更新。