上海举办开源数据集专场活动加速构建人工智能开源生态新格局

问题：数据要素价值释放仍面临“供给不足、口径不一、流通受限”等堵点。

随着大模型、具身智能等技术加速迭代，产业对高质量、可复用、可验证的数据集需求急剧上升。

但现实中，数据分散在不同机构与场景，采集标注成本高、共享边界不清、质量标准不统一，叠加安全合规要求不断提升，导致“数据沉淀多、可用数据少”，影响技术研发效率与产业落地速度。

开源数据集作为公共性、协作式的数据供给形态，正成为破解瓶颈的重要路径。

原因：一方面，人工智能训练对数据规模、覆盖面与多样性提出更高要求，尤其是涉及复杂交互与真实世界反馈的具身智能领域，需要大量来自真机、真实环境的多模态数据；另一方面，开源生态在快速扩张过程中，亟需形成可落地的技术规范与治理规则，来保障数据质量、可追溯性及安全合规，避免“开源无序化”带来的资源浪费和潜在风险。

同时，区域产业集聚对数据、算力、算法、场景的协同提出更强诉求，要求政府、企业、高校科研机构与社区形成更高效的协作机制。

影响：本次专场活动在上海举办，以“激活数据价值、共筑开源生态”为主线，搭建产业界、学术界与开源社区的交流平台，释放出多重信号。

工业和信息化部信息技术发展司有关负责人提出，建设高水平开源体系，关键在于打造具有高影响力、强辐射力的开源社区，以开源赋能产业创新发展。

这表明开源不仅是技术路线，更是产业组织方式与创新体系的重要组成部分。

上海市经济和信息化委员会相关负责人表示，上海正加快自主开源体系建设，面向国际竞争打造开源创新高地，并介绍了包括高质量思维链数据开源、社区动作数据开放等阶段性成果。

徐汇区相关负责人则从产业承载角度指出，徐汇作为上海人工智能产业核心区域，正完善涵盖算力、语料等要素在内的全栈生态，并将以多元活动促进生态闭环。

开放原子开源基金会方面介绍，围绕中立开放原则已孵化多批开源项目并建设平台生态，本次聚焦开源数据集，意在进一步夯实数据要素基础，推动人工智能产业链协同。

对策：活动现场启动的开源数据集工作组，是面向关键堵点的制度化安排。

该工作组由开放原子开源基金会牵头，联合产业、科研及标准制定等多方力量，重点推进技术规范、标准体系与安全合规建设，推动形成“可共享、可评测、可治理”的数据集供给机制。

与此同时，具身智能开源数据集社区同步成立，由企业牵头聚焦人形机器人真实数据开源与生态建设，强调以场景数据驱动研发迭代，提升数据的可获得性与可复用性。

当天全球首发的OpenLET“触觉灵巧操作+全身运动”数据集，作为国内首个开源全尺寸人形机器人全身协同多模态真机数据集，将为研究者和开发者提供更贴近真实任务的数据支撑，有望提升模型训练与算法评测的一致性与可比性。

多方还提出，应在人才集聚、机制创新、要素盘活等方面持续探索，推动政府引导、企业主导、社区协同、科研支撑的合力，增强我国在全球开源生态中的参与度与话语权。

前景：业内人士认为，开源数据集建设正在从“项目驱动”走向“体系化推进”。

未来，随着标准规则逐步完善、更多行业场景与真实数据纳入开源协作，开源数据集有望成为连接科研创新与产业应用的“公共底座”，并带动评测基准、工具链、数据治理与安全合规服务等配套生态成长。

对上海而言，依托产业集聚优势与制度创新空间，进一步打通数据要素供给、开源社区活跃度与应用场景落地的链路，将有助于形成可复制、可推广的开源生态建设经验，促进人工智能与实体经济深度融合。

开源数据集建设是推动人工智能产业高质量发展的重要基础。

通过激活数据价值、建立规范标准、汇聚产业力量，我们正在将数据从"沉默的矿藏"转变为"流动的黄金"。

上海在这一过程中的积极探索和实践，不仅为本地人工智能产业发展提供了有力支撑，也为全国开源生态建设树立了典范。

展望未来，随着开源数据集工作的深入推进，我国人工智能产业将获得更加充分的数据要素支撑，在全球科技竞争中的地位也将进一步提升。

上海举办开源数据集专场活动 加速构建人工智能开源生态新格局

上海举办开源数据集专场活动加速构建人工智能开源生态新格局