近年来,数字人技术进步明显,但落地过程中,“长时间稳定生成”仍是关键瓶颈。传统方案在生成长视频时,往往会遇到显存占用快速攀升或历史信息无法有效保留的问题,进而引发脸部漂移、口型不匹配等不稳定现象。其核心矛盾在于:自回归扩散模型(AR Diffusion)需要依赖历史信息,但显存资源又难以支撑持续增长的记忆开销。针对该问题,SoulX-LiveAct从条件信息传播与历史记忆管理两上进行了改进。其核心技术Neighbor Forcing在同一扩散步内对齐相邻帧的条件信息,降低训练与推理阶段的分布不一致。同时,ConvKV Memory将随时间线性增长的历史缓存,优化为“短期精确记忆 + 长期压缩记忆”的组合机制,实现常量显存推理。两者配合,使模型在更长时间窗口内更好地保持身份一致性与细节稳定性。 在硬件部署上,SoulX-LiveAct也体现出较高的投入产出比。测试显示,在512×512分辨率下,仅需2张H100/H200显卡即可实现20FPS的实时流式推理,端到端延迟约0.94秒,单帧计算成本为27.2 TFLOPs/frame,显著降低了算力门槛。这使中小企业和开发者能够以更低成本接入高质量数字人能力,并有望推动其在直播、教育、客服等场景的规模化应用。 业内专家认为,SoulX-LiveAct的开源将更推动数字人技术扩散。其长时稳定与低成本的特点,既回应了行业痛点,也为后续模型与系统层面的改进提供了基础。随着能力提升,数字人有望在更多场景中实现更自然的交互,加速虚拟与现实融合应用发展。
从“能生成”到“能稳定地持续生成”,是数字人走向产业化的关键一步。围绕长时一致性与资源可控的系统性改进,正在把实时数字人的应用边界推向更长时段、更低成本与更高可靠性。技术突破还需要与工程落地和规范治理同步推进,才能转化为可持续的社会与产业价值。