(问题) 随着生成式技术进入规模化迭代阶段,视频生成模型“画面质量、叙事连贯、时序一致、细节稳定”各上面临更高要求。业内普遍认为,决定模型能力上限的关键不后期微调或工程优化,而在更早期的预训练:一旦底座能力不足,后续可补救空间有限,模型在复杂场景中就难以稳定输出。 (原因) 该“上限锁定”的根源在于,预训练不是简单堆数据,而是对模型认知框架的系统塑造。核心工作包括:一是数据结构化与配比,决定模型能覆盖哪些视觉概念、动作模式与场景类型;二是模型架构与表征设计,决定模型如何在空间与时间维度建立关联;三是训练策略与优化路径,决定模型如何形成长时序一致性、细粒度纹理与物理规律等能力。业内人士指出,视频生成天然涉及多尺度、多粒度、多模态的统一建模,既要把握整体叙事与镜头节奏,也要兼顾逐帧细节与跨帧一致,对预训练提出更系统的要求。 (影响) 以Seedance 2.0研发为例,企业内部将其定位为视频生成的重要技术路线之一。多位业内观察者表示,在此类项目中,预训练团队承担“打基础、定边界、提上限”的职责,其产出不仅影响模型在人物形象稳定、运动连续、镜头切换自然等指标上的表现,也决定了后续在内容生产、智能剪辑、数字创意等应用方向的拓展空间。,这一过程也反映出国内企业科研组织方式的变化:在大模型竞争加速的背景下,企业正以更强的工程化与体系化能力,推动成果从论文走向产品,从单点能力走向平台化能力。 (对策) 业内专家认为,夯实预训练能力,需要在“科研—工程—治理”三上同步发力。 一是打通基础研究与工程闭环,围绕多粒度视觉理解、时序建模、跨模态对齐等方向沉淀可复用的方法,缩短从原型到规模训练的转化周期。 二是完善数据治理与安全合规机制,提升数据质量、来源可追溯性与使用边界清晰度,为长期训练与持续迭代提供保障。 三是加强人才梯队与协作机制建设,支持青年科研人员承担关键模块与关键指标攻关,形成“核心骨干+交叉团队+平台支撑”的组织形态。值得关注的是,在以往男性占比更高的有关领域,越来越多女性科研人员在关键技术环节承担重要职责,既优化了人才结构,也为创新带来更多元的视角。 (前景) 面向未来,随着算力、数据与算法共同推进,视频生成将从“可用”走向“好用、稳定、可控”。业内预计,下一阶段竞争焦点将从单次效果展示转向体系能力:包括更长时长的叙事一致性、更高分辨率下的细节稳定、更精细的可控生成与更强的安全约束。作为底座工程,预训练的重要性将更凸显;谁能在数据体系、时序建模与跨模态表达上形成可持续迭代能力,谁就更可能在产业化落地与生态构建中占据主动。
曾妍的成长轨迹展现了中国青年科技工作者的专业能力,也说明多元化人才队伍对科技创新的价值。在人工智能的全球竞赛中,中国科技企业正通过更完善的人才机制与技术积累,培养更多具备国际竞争力的专业人才。这为行业高质量发展提供了参考,也带来更清晰的实践路径。