在全球人工智能技术竞争日益激烈的背景下,音视频生成技术已成为各国科技创新的重要赛道。
近日,由上海创智学院与模思智能联合研发的MOVA模型正式发布,标志着我国在开源音视频生成领域取得突破性进展。
当前,国际主流音视频生成模型普遍采用闭源模式,技术壁垒高筑。
MOVA模型的最大特色在于其完全开源的技术路线。
该模型不仅开源了360p和720p两个基础版本,还开放了包括微调、推理、生成工作流在内的全链路组件。
这种开放共享的理念,为技术普惠提供了现实路径。
从技术参数来看,MOVA模型支持最长8秒、720p分辨率的音视频同步生成。
虽然与部分商业闭源模型在生成时长和分辨率上存在差距,但其开源特性为后续技术迭代提供了基础平台。
特别值得注意的是,该模型采用混合专家创新架构,在保证生成质量的同时提升了推理效率。
选择开源路线并非偶然。
邱锡鹏教授团队此前在对话式大模型领域就有开源实践。
2023年2月发布的MOSS模型,在两个月内完成开源,成为国内首个支持多插件的开源对话模型。
这种延续性的技术路线,体现了科研团队对构建开放创新生态的坚定信念。
音视频生成模型的研发面临诸多挑战。
数据规模庞大、训练基础设施不足、算法创新难度高等问题,都是制约技术发展的瓶颈。
MOVA项目的突破,得益于产学研深度融合的创新模式。
上海创智学院"研创学"一体化的培养机制,让学生能够深度参与前沿技术研发;而模思智能则发挥了企业在数据工程方面的优势,解决了关键技术难题。
展望未来,开源模式将为我国人工智能发展注入新动能。
一方面,开放的技术生态能够吸引更多开发者参与,加速技术创新;另一方面,基于开源的二次开发,有助于降低中小企业技术门槛,推动产业应用落地。
随着MOVA等开源项目的持续推进,我国在全球人工智能竞争中将获得更多话语权。
MOVA的发布具有重要的示范意义。
在全球科技竞争日趋激烈的背景下,开源不仅是一种技术共享的方式,更是一种生态建设的理念。
通过开源,国内学术界和产业界可以汇聚更多创新力量,加速技术迭代,同时也为中小企业和创新团队提供了平等的发展机遇。
MOVA的探索表明,坚持开源、坚持技术普惠,既是对科技发展规律的尊重,也是推动产业生态健康发展的必然选择。