it之家:数字人模型soulx-flashhead

IT之家报道,Soul这个社交平台正式向所有人分享了他们的实时数字人模型 SoulX-FlashHead。这个模型特别厉害,不需要特别高端的服务器,只要用一块消费级的4090显卡,就能给你看“高质量高画质”的数字人了。SoulX-FlashHead在两块显卡上的效果给大家做了个总结:Lite版走得快,单张4090显卡能跑到96帧每秒,虽然占用内存只有6.4G,但最多支持同时处理三路画面。Pro版做得精致些,4090跑下来是16.8帧每秒,如果再加一块5090显卡并联起来用,就能超过25帧了。这个版本在图像质量(FID)和唇形吻合度(Lip-sync)上都达到了行业顶尖水平。 大家可能会奇怪,为啥小模型就能有这么好的画质?答案就在训练的方法上。这个模型有1.3亿个参数,用了一种叫双向蒸馏的新技术(Oracle-Guided Distillation)。这就好比给模型装上了一个导航仪,用真实的答案(Ground Truth)作为指引,把人物特征牢牢地固定住。另外,研究团队还在海量素材里精挑细选出782小时的音画精品数据,经过DWpose关键点提取、Lip-sync过滤等多道工序加工后,变成了纯净的养分喂给模型。 除了技术厉害,这个模型在实际应用里也很实用。你可以用来做24小时不停歇的矩阵直播、做游戏里的NPC引擎、或者教孩子的AI外教老师。Soul已经把所有的代码和数据都给公开出来了。