科技巨头加快布局多模态AI 视频生成或成争夺用户的新赛道

一、竞争压力倒逼战略调整当前，全球生成式人工智能市场竞争格局正加速演变。谷歌旗下多模态产品通过集成自研视频生成技术，已在规模化应用层面形成差异化优势，对行业头部企业构成直接竞争威胁。面对这个局面，OpenAI决定将独立运营的视频生成工具整合进其核心对话产品生态，以期通过功能协同重塑产品竞争力。据知情人士透露，涉及的技术团队目前正加速推进多模态交互的适配工作，整合部署预计在短期内完成。这一决策的背后，是该公司在用户规模扩张上面临的现实压力——其主力产品当前周活跃用户约为9.2亿，距离此前设定的10亿目标仍存在约8%的差距。管理层判断，视频生成能力的引入有望成为激活用户增长的新动能，尤其在年轻用户群体中具有较强的吸引潜力。二、独立产品困境揭示整合必要性此次整合决策，在一定程度上源于视频生成工具独立运营阶段所暴露出的结构性问题。该工具于2024年2月首次公开预览，同年12月正式上线，发布初期曾登顶主流应用商店免费榜单，引发广泛关注。然而，热度消退后，用户留存率持续低迷。据媒体获取的内部数据显示，该应用在应用商店的排名已从榜首跌至第165位，用户主动分享生成内容的比例不足5%。这一数据折射出独立应用模式在构建用户粘性上的内在局限。生成式视频工具若缺乏高频使用场景的依托，难以形成持续的用户习惯。将其嵌入日均交互频次更高的对话产品，被视为提升工具使用率、实现价值重构的可行路径。该公司首席执行官在内部会议中亦坦承，独立应用模式未能有效建立用户粘性，需借助主力产品的流量基础加以激活。三、算力成本构成重大挑战技术整合的推进，面临不容忽视的成本压力。视频生成所需的算力消耗远高于图像生成，据业内估算，两者之间的算力差距超过30倍。这意味着，一旦视频生成功能在主力产品中大规模铺开，服务器负载与运营成本将面临指数级增长的风险。此前，该公司曾因某一图像生成功能在短时间内引发海量请求，导致计算资源消耗激增，服务一度承压。视频生成功能的整合若触发类似的用户涌入效应，其对基础设施的冲击将更为剧烈。据专业机构测算，为支撑新功能的持续运行，该公司到2030年的人工智能推理成本将突破2250亿美元，这一数字尚未涵盖硬件升级与能源消耗的额外支出。如何在保证服务响应速度的前提下有效控制成本，将是技术团队面临的核心命题。四、产品策略折射行业竞争焦虑值得关注的是，此次整合计划并非孤立的产品决策，而是该公司近期若干战略调整的组成部分。就在半年前，该公司刚刚叫停了在主力产品内嵌购物功能的计划，从项目启动到终止仅历时六个月。这种快速试错、及时止损的运作节奏，折射出科技企业在维持技术领先与控制运营成本之间寻求平衡的现实困境。行业观察人士指出，这场整合的实质，是生成式人工智能应用场景的深度拓展。通过将视频生成能力转化为对话产品的扩展功能，相关企业正在尝试重构用户对生成式人工智能的认知与使用习惯。同时，如何避免功能叠加导致用户体验碎片化，也将考验产品团队的整合能力与设计水准。五、多模态竞争进入关键阶段当前，谷歌、Meta等科技巨头均在加速布局多模态人工智能，围绕用户注意力与使用时长的争夺已进入白热化阶段。基于此，谁能率先将视频生成、图像理解、自然语言交互等能力有机融合，并以低门槛、高体验的方式触达普通用户，谁就有望在新一轮竞争格局中占据主动。

视频生成工具从独立到整合，不仅是一次产品升级，更是对平台运营能力的考验。在全球科技竞争中，能否实现规模化、可持续的价值转化，将比单纯的功能开发更重要。效率、体验和长期发展仍是成功的关键。