soul张璐团队推出实时数字人生成模型

Soul张璐团队最新推出了实时数字人生成模型SoulX-FlashHead，这个模型把AI驱动的实时数字人应用变成了每个人都能用的普惠新方案。过去，要做高质量的实时数字人，就得靠那种特别贵的H800算力集群，要是想要省钱用消费级显卡，画面就会变得僵硬或者崩坏。SoulX-FlashHead的出现，就是要解决这个矛盾。这个模型特别厉害的地方在于它很轻量级，只需要1.3B的参数就能搞定。团队是怎么做到“以小博大”的呢？他们用了一个叫双向蒸馏的办法（Oracle-Guided Distillation），不管视频做多长，人物的脸都不会变样，彻底解决了身份漂移的老问题。另外，为了防止口型抖动，他们强迫模型把最近8秒的历史音频特征缓存起来，这样上下文信息就不会丢了。再加上自研的VividHead数据集（把10,000小时素材里的782小时精炼出来），经过了DWpose关键点处理和唇形一致分数过滤，喂给模型的都是高质量的数据。在实测结果上，SoulX-FlashHead的表现非常抢眼。画质方面，Pro版本在高清测试（HDTF）中把FID值降到了8.31，FVD值做到了103.14，比好多大模型都要好。速度上更是夸张，Lite版本在单卡RTX4090上能跑到96FPS，比25FPS的基准线快了近4倍，效率是其他主流模型的100倍以上。面对野外复杂环境（VFHQ）的考验，“时序音频上下文缓存”让Sync-C得分达到了5.60，大幅领先同类技术。今年1月的时候，Soul AI Lab还开源了SoulX-FlashTalk，它能做到0.87秒的超低延迟和32FPS的高帧率。有了这两个模型配合，现在只要有一台游戏PC就能搭建电商直播间了；支持15种语言的AI一对一外教也变得可能；甚至游戏里的NPC也能做出毫秒级的响应了。Soul张璐团队通过不断的技术创新和开源分享，把原本只存在于云端的高保真数字人技术真正带到了大家的电脑桌上。