数字人技术从机房里解放出来,给咱们的个人电脑也装上了

Soul App正把数字人技术从机房里解放出来,给咱们的个人电脑也装上了。前不久,Soul App旗下的AI实验室Soul AI Lab,把一个叫SoulX-FlashHead的实时数字人生成模型给大家看了。这个模型只有1.3B的参数,个头不大但力气大。它能在单张RTX 4090显卡上跑出96FPS的工业级速度,画质还特别好。这样一来,以前那种说要高性能就得搞昂贵设备的老规矩就被打破了。现在这个模型的论文、代码、权重和数据集都已经公开,全球开发者都能拿去用。 以前搞实时数字人有个大难题:想要专业效果就得花大钱买集群,要是舍不得花钱,画面又容易崩还会“面瘫”,这就把很多人拦在了门外。SoulX-FlashHead就是为了解决这个问题而设计的。今年1月的时候,他们还开源了一个叫SoulX-FlashTalk的14B参数模型,能做到亚秒级的低延迟。这次又证明了轻量级模型也能有专业水平的表现,普通的消费级电脑也能跑起来。 这个技术突破主要靠了三个新招。第一是双向蒸馏训练机制,团队找来一个有全局感知能力的老师模型做指导,把真实的Ground Truth当锚点来传递知识,这样就能避免长视频里人物特征变来变去。第二是时序音频上下文缓存技术。以前的流式场景因为音频切片太短会导致口型抖动,这个技术强制模型记住8秒的历史音频信息来做生成依据,明显提升了唇形同步的精度。第三是建了个高质量的数据底座。团队从超过10000小时的原始素材里挑出782小时的干净数据,经过好多道工序加工成好的养料喂给模型。 评测数据也证明这些创新管用。在高清视频评测数据集HDTF上,Pro版本打出了8.31的FID分数和103.14的FVD分数,画面细腻度甚至比一些参数更大的模型还强。在野外复杂场景数据集VFHQ上,Sync-C唇形同步指标高达5.60。速度方面Lite版本在单卡RTX 4090上能跑96FPS,是25FPS实时基准的4倍多。 这个模型还提供两种版本:Lite版给讲究快的人用,占用6.4G显存就能跑96FPS高帧率;Pro版给注重画质的人用,单卡RTX 5090能跑到16.8FPS。 这对好几个行业都是个好消息。做电商直播的不用再指望专业机房了,普通的游戏电脑就能搞7x24小时直播。做游戏的把这个轻量级模型塞进引擎里,NPC就能做到毫秒级响应。做教育的让它支持15种语言实时驱动,能生成生动的虚拟教师。 这次全面开源也是为了把好东西分享出来。论文写得明明白白,项目主页有演示效果代码放GitHub和HuggingFace上供大家下载和讨论。这种开放式的姿态能让大家一起搞创新。 从SoulX-FlashTalk到SoulX-FlashHead都在不断输出技术成果。两款模型相继开源说明他们是想通过开放共享来推动发展。SoulX-FlashHead赶上了数字人技术从专业走向大众的好时候它既适合消费级硬件又有工业级性能给行业做了个好榜样也为AI技术的平民化贡献了力量。