Soul App开源实时数字人模型SoulX-LiveAct 推动小时级稳定生成与低成本部署落地

近年来，数字人技术进步明显，但落地过程中，“长时间稳定生成”仍是关键瓶颈。传统方案在生成长视频时，往往会遇到显存占用快速攀升或历史信息无法有效保留的问题，进而引发脸部漂移、口型不匹配等不稳定现象。其核心矛盾在于：自回归扩散模型（AR Diffusion）需要依赖历史信息，但显存资源又难以支撑持续增长的记忆开销。针对该问题，SoulX-LiveAct从条件信息传播与历史记忆管理两上进行了改进。其核心技术Neighbor Forcing在同一扩散步内对齐相邻帧的条件信息，降低训练与推理阶段的分布不一致。同时，ConvKV Memory将随时间线性增长的历史缓存，优化为“短期精确记忆 + 长期压缩记忆”的组合机制，实现常量显存推理。两者配合，使模型在更长时间窗口内更好地保持身份一致性与细节稳定性。在硬件部署上，SoulX-LiveAct也体现出较高的投入产出比。测试显示，在512×512分辨率下，仅需2张H100/H200显卡即可实现20FPS的实时流式推理，端到端延迟约0.94秒，单帧计算成本为27.2 TFLOPs/frame，显著降低了算力门槛。这使中小企业和开发者能够以更低成本接入高质量数字人能力，并有望推动其在直播、教育、客服等场景的规模化应用。业内专家认为，SoulX-LiveAct的开源将更推动数字人技术扩散。其长时稳定与低成本的特点，既回应了行业痛点，也为后续模型与系统层面的改进提供了基础。随着能力提升，数字人有望在更多场景中实现更自然的交互，加速虚拟与现实融合应用发展。

从“能生成”到“能稳定地持续生成”，是数字人走向产业化的关键一步。围绕长时一致性与资源可控的系统性改进，正在把实时数字人的应用边界推向更长时段、更低成本与更高可靠性。技术突破还需要与工程落地和规范治理同步推进，才能转化为可持续的社会与产业价值。