UniVideo是滑铁卢大学与快手可灵合作推出的一个新模型,专门用来处理视频理解、生成和编辑。在这个数字化时代,大家都在关注视频内容的生成与编辑。UniVideo这次就想把这几个任务统一起来,给多模态视频生成模型一个新突破。这个模型的核心是把多模态大语言模型(MLLM)和多模态扩散Transformer(MM-DiT)结合起来。MM-DiT负责高质量的视觉生成,MLLM负责理解多模态指令。这种双流架构给模型带来了更强的指令理解能力和更好的视觉生成效果。 不管是图像、视频还是文本,UniVideo都能处理。它可以把图像或视频转换成文本输出(Image/Video→Text,I/V2T),还能把文本转成图像或视频(Text→Image/Video,T2I/T2V)。还有一种是图像转视频生成(Image→Video,I2V),它结合了图像和文本指令来生成语义连贯的视频。最有意思的是它的编辑功能:I2I和V2V分别代表图像到图像和视频到视频的编辑。再比如上下文生成和编辑这一块,它可以支持多个视觉条件下的操作(Multi-ID2I、Multi-ID2V、ID-I2I、ID-V2V)。 实验结果也挺棒。UniVideo在多个基准测试中表现得比现有最好的方法还要好(SoTA)。而且因为它是通过联合多任务训练出来的,所以泛化能力特别强。即使遇到以前没见过的编辑指令,它也能利用之前的图像编辑经验去处理视频编辑任务。即便是训练数据里没包含的新任务组合,它也能自然适应。 这次UniVideo不仅是研究上的突破,还为实际应用提供了新可能。通过这种统一的多模态指令范式和双流架构,模型在扩展性和泛化能力上表现得非常强。希望以后它能在更多实际场景中发挥作用,给视频创作带来更多创新。这个成果对业界来说肯定是个里程碑了。