滑铁卢大学和快手可灵联手搞出了个univideo

在当下的数字化大潮中，视频内容的生成和编辑成了大家都在琢磨的热门课题。滑铁卢大学和快手可灵两家联手搞出了个UniVideo，这可是该领域里的一大新突破。UniVideo的目标很明确，就是想造一个统一的多模态模型，彻底把视频的理解、生成还有编辑全都搞定。咱们先来看看UniVideo的骨架是咋搭的。它搞了个双流结构，把多模态大语言模型（MLLM）懂指令的本事，还有多模态扩散Transformer（MM-DiT）能画好图的能耐融合到了一起。这样一来，模型在搞明白多模态指令的时候更灵光，画出来的视觉内容也更保真。跟以前那种非得给某个任务专门设计一套或者只能单模态玩的方式比起来，UniVideo用统一建模的法子，啥指令都能懂，还在很多评测里干得漂亮，有时候甚至能把现有的顶尖方法（SoTA）给比下去。再来说说它是咋统一干事儿的。UniVideo能把视频生成和编辑的各种活儿都揉进一个多模态指令的框架里。具体来讲，它能干好几类活儿：能把图像或者视频转成文字（Image/Video→Text，I/V2T）；能拿文字指令生出图像或者视频（Text→Image/Video，T2I/T2V）；还能结合一张图片和文字生出个带剧情的视频（Image→Video，I2V）；更能照着编辑命令修图或者修视频（Image/Video Editing，I2I/V2V）。最绝的是它还支持好几种多ID条件下的上下文生成和编辑（Multi-ID2I/Multi-ID2V/ID-I2I/ID-V2V）。这种灵活的玩法让它处理复杂任务特别带劲，特别是那种得上下文连贯的活儿。咱们再看看实验结果咋样。在一堆定量考试里，UniVideo表现得非常亮眼，把不少专门的老办法都给比下去了。因为是联合多个任务一起练出来的，所以它的泛化能力特别强：哪怕训练的时候没见过那些乱七八糟的视频编辑命令，它也能把修图那套本事搬到视频上去用；哪怕之前没练过某些新的任务搭配，它也能自然地适应新的玩法。这次滑铁卢大学跟快手可灵的合作，不光给研究指了条新路，也给应用带来了新机会。靠着统一的指令范式和双流架构，UniVideo把视频理解、生成和编辑都统一起来了，扩展性和泛化能力都很强。以后咱们肯定能在更多实际场合里看到它发挥作用，给视频创作带来更多新点子。这是多模态生成技术上的又一块里程碑，值得大家一直盯着看。