上海举办开源数据集专场活动 加速构建人工智能开源生态新格局

问题:数据要素价值释放仍面临“供给不足、口径不一、流通受限”等堵点。

随着大模型、具身智能等技术加速迭代,产业对高质量、可复用、可验证的数据集需求急剧上升。

但现实中,数据分散在不同机构与场景,采集标注成本高、共享边界不清、质量标准不统一,叠加安全合规要求不断提升,导致“数据沉淀多、可用数据少”,影响技术研发效率与产业落地速度。

开源数据集作为公共性、协作式的数据供给形态,正成为破解瓶颈的重要路径。

原因:一方面,人工智能训练对数据规模、覆盖面与多样性提出更高要求,尤其是涉及复杂交互与真实世界反馈的具身智能领域,需要大量来自真机、真实环境的多模态数据;另一方面,开源生态在快速扩张过程中,亟需形成可落地的技术规范与治理规则,来保障数据质量、可追溯性及安全合规,避免“开源无序化”带来的资源浪费和潜在风险。

同时,区域产业集聚对数据、算力、算法、场景的协同提出更强诉求,要求政府、企业、高校科研机构与社区形成更高效的协作机制。

影响:本次专场活动在上海举办,以“激活数据价值、共筑开源生态”为主线,搭建产业界、学术界与开源社区的交流平台,释放出多重信号。

工业和信息化部信息技术发展司有关负责人提出,建设高水平开源体系,关键在于打造具有高影响力、强辐射力的开源社区,以开源赋能产业创新发展。

这表明开源不仅是技术路线,更是产业组织方式与创新体系的重要组成部分。

上海市经济和信息化委员会相关负责人表示,上海正加快自主开源体系建设,面向国际竞争打造开源创新高地,并介绍了包括高质量思维链数据开源、社区动作数据开放等阶段性成果。

徐汇区相关负责人则从产业承载角度指出,徐汇作为上海人工智能产业核心区域,正完善涵盖算力、语料等要素在内的全栈生态,并将以多元活动促进生态闭环。

开放原子开源基金会方面介绍,围绕中立开放原则已孵化多批开源项目并建设平台生态,本次聚焦开源数据集,意在进一步夯实数据要素基础,推动人工智能产业链协同。

对策:活动现场启动的开源数据集工作组,是面向关键堵点的制度化安排。

该工作组由开放原子开源基金会牵头,联合产业、科研及标准制定等多方力量,重点推进技术规范、标准体系与安全合规建设,推动形成“可共享、可评测、可治理”的数据集供给机制。

与此同时,具身智能开源数据集社区同步成立,由企业牵头聚焦人形机器人真实数据开源与生态建设,强调以场景数据驱动研发迭代,提升数据的可获得性与可复用性。

当天全球首发的OpenLET“触觉灵巧操作+全身运动”数据集,作为国内首个开源全尺寸人形机器人全身协同多模态真机数据集,将为研究者和开发者提供更贴近真实任务的数据支撑,有望提升模型训练与算法评测的一致性与可比性。

多方还提出,应在人才集聚、机制创新、要素盘活等方面持续探索,推动政府引导、企业主导、社区协同、科研支撑的合力,增强我国在全球开源生态中的参与度与话语权。

前景:业内人士认为,开源数据集建设正在从“项目驱动”走向“体系化推进”。

未来,随着标准规则逐步完善、更多行业场景与真实数据纳入开源协作,开源数据集有望成为连接科研创新与产业应用的“公共底座”,并带动评测基准、工具链、数据治理与安全合规服务等配套生态成长。

对上海而言,依托产业集聚优势与制度创新空间,进一步打通数据要素供给、开源社区活跃度与应用场景落地的链路,将有助于形成可复制、可推广的开源生态建设经验,促进人工智能与实体经济深度融合。

开源数据集建设是推动人工智能产业高质量发展的重要基础。

通过激活数据价值、建立规范标准、汇聚产业力量,我们正在将数据从"沉默的矿藏"转变为"流动的黄金"。

上海在这一过程中的积极探索和实践,不仅为本地人工智能产业发展提供了有力支撑,也为全国开源生态建设树立了典范。

展望未来,随着开源数据集工作的深入推进,我国人工智能产业将获得更加充分的数据要素支撑,在全球科技竞争中的地位也将进一步提升。