最近,人工智能领域遇到了一个大麻烦。高质量的训练数据已经成了行业竞争的核心,大家都在拼命争取。据外媒报道,知名机构OpenAI和数据公司Handshake AI合作了,把办公场景里的各种真实工作成果都拿出来做训练数据,像文档、演示文稿、数据表格还有代码等等,目的是想让模型处理白领工作更顺手。他们还要求外包人员提交“具体产出物”,建议大家用专用工具删掉涉密信息和个人身份信息。 埃文・布朗指出,这种做法把企业推向了很高的风险边缘。最大的问题就是判断什么是机密、什么有第三方权益全靠外包人员自己来定。每个人的理解可能差别很大,又没有统一的审核机制来把关。万一不小心把没授权的专利技术、商业战略、客户数据或者受版权保护的材料录进训练集里,不光会惹上官司,可能还会涉及到严重的商业秘密侵权问题,甚至影响到全球业务布局。 欧盟《人工智能法案》这些监管框架都要求对数据来源进行风险评估和追溯管理。如果只靠协议条款让别人保证权利没问题,企业自己又不建立起严格的审核体系,肯定满足不了现在的法律和伦理要求。 这件事也反映出人工智能数据供应链上的弱点。数据合规不光是防法律风险那么简单,还关系到产业能不能可持续发展和社会的信任度。如果训练数据里有权利瑕疵,可能会让生成的内容侵权或者偏见固化。所以说,建立一个权责清晰、审核严密的体系是必须要做的基础工程。 技术突破当然离不开高质量的数据支撑,但是获取和应用数据必须在法律和伦理的轨道上跑。这次事件给大家提了个醒,在搞技术探索的同时,必须把数据合规的防火墙给筑牢。企业得建立更完善的审核机制,在外包环节加强法律培训和监督,还要积极参与行业标准和伦理准则的建设。只有创新和规范两手都要抓硬,人工智能技术才能走得稳当,真正给经济社会发展赋能。