国内首个开源高质量音视频同步生成模型发布，开源路径加速产业生态协同创新

在全球人工智能技术竞争日益激烈的背景下，音视频生成技术已成为各国科技创新的重要赛道。

近日，由上海创智学院与模思智能联合研发的MOVA模型正式发布，标志着我国在开源音视频生成领域取得突破性进展。

当前，国际主流音视频生成模型普遍采用闭源模式，技术壁垒高筑。

MOVA模型的最大特色在于其完全开源的技术路线。

该模型不仅开源了360p和720p两个基础版本，还开放了包括微调、推理、生成工作流在内的全链路组件。

这种开放共享的理念，为技术普惠提供了现实路径。

从技术参数来看，MOVA模型支持最长8秒、720p分辨率的音视频同步生成。

虽然与部分商业闭源模型在生成时长和分辨率上存在差距，但其开源特性为后续技术迭代提供了基础平台。

特别值得注意的是，该模型采用混合专家创新架构，在保证生成质量的同时提升了推理效率。

选择开源路线并非偶然。

邱锡鹏教授团队此前在对话式大模型领域就有开源实践。

2023年2月发布的MOSS模型，在两个月内完成开源，成为国内首个支持多插件的开源对话模型。

这种延续性的技术路线，体现了科研团队对构建开放创新生态的坚定信念。

音视频生成模型的研发面临诸多挑战。

数据规模庞大、训练基础设施不足、算法创新难度高等问题，都是制约技术发展的瓶颈。

MOVA项目的突破，得益于产学研深度融合的创新模式。

上海创智学院"研创学"一体化的培养机制，让学生能够深度参与前沿技术研发；而模思智能则发挥了企业在数据工程方面的优势，解决了关键技术难题。

展望未来，开源模式将为我国人工智能发展注入新动能。

一方面，开放的技术生态能够吸引更多开发者参与，加速技术创新；另一方面，基于开源的二次开发，有助于降低中小企业技术门槛，推动产业应用落地。

随着MOVA等开源项目的持续推进，我国在全球人工智能竞争中将获得更多话语权。

MOVA的发布具有重要的示范意义。

在全球科技竞争日趋激烈的背景下，开源不仅是一种技术共享的方式，更是一种生态建设的理念。

通过开源，国内学术界和产业界可以汇聚更多创新力量，加速技术迭代，同时也为中小企业和创新团队提供了平等的发展机遇。

MOVA的探索表明，坚持开源、坚持技术普惠，既是对科技发展规律的尊重，也是推动产业生态健康发展的必然选择。