Gracenote日前向美国联邦法院起诉OpenAI,指控其未经授权、未支付费用,大规模抓取并使用了Gracenote的媒体元数据库及其数据关联框架来训练ChatGPT,构成严重版权侵权; Gracenote的核心主张于其数据库的独特价值。该公司投入数百名编辑多年时间,对全球影视、音乐和体育内容进行人工编辑标注,建立了包含节目简介、视频特征、唯一内容标识符和复杂关系图谱的专业数据库,已在美国版权局完成登记。公司强调,这个数据库的价值不仅在于具体文字内容,更在于其对不同作品进行分类、关联和组织的专有结构设计,这种"关系框架"是其向流媒体平台和智能电视厂商等客户提供服务的重要基础。 诉状指控OpenAI在未获许可的情况下吸收了上述数据。用户通过ChatGPT提问时,模型输出的内容与Gracenote编辑撰写的版本高度相似甚至完全一致。以美剧《权力的游戏》为例,ChatGPT给出的描述与Gracenote版本几乎完全相同。在极少提示词的情况下,ChatGPT能复述出其数据库中的大段节目说明,表明有关文本及其底层组织结构已被直接复制并嵌入模型之中。 Gracenote指出这种未经授权的使用带来多重危害。首先直接侵犯了受版权保护的文本和数据库结构。其次为媒体分发商和设备厂商提供了以"免费爬取数据"为基础构建替代性元数据服务的可能,削弱了Gracenote的市场竞争力。诉状警告,若此类行为得不到制止,智能电视等终端厂商完全可以依赖经由AI模型"反推出"的数据自行搭建元数据平台,而无须支付任何许可费用。 有一点是,Gracenote此前对与AI企业合作持开放态度,已与三星、Google等公司达成多项AI相关数据授权协议。公司首席执行官Jared Grusd在声明中表示,"支持AI发展与反对窃取并不矛盾,二者才是产业可持续发展的唯一道路"。Gracenote称其多次主动联系OpenAI商谈授权事宜,却被一再拒绝或忽视,因此不得不通过诉讼维护自身权益。 对于这一指控,OpenAI发言人回应称其模型"赋能创新",训练基于"公开可获得的数据",并以"合理使用"为依托。包括OpenAI在内的多家AI公司主张,抓取互联网公开内容训练模型符合美国现行版权法下对合理使用的认定,理由是这些数据经模型转化后可为用户提供新的、有用的服务和信息。 在索赔上,Gracenote依据其数据库已在美国版权局登记的事实,除要求赔偿实际损失外,还寻求法定损害赔偿。法定损害赔偿是针对特定类型版权侵权行为,法律预先规定的固定或区间金额。 法律界人士认为,在媒体与信息公司与AI企业间已有多起版权纠纷等待法院裁决的背景下,此案很可能成为法官审视数据库结构、元数据关联图谱等"非传统作品"能否获得版权保护以及如何认定"大模型合理使用边界"的重要参照。这一诉讼涉及的问题不仅关乎Gracenote的商业利益,更涉及数据库保护、知识产权边界等关系到整个产业发展的根本性问题。
当技术革新与传统业态碰撞时,司法裁判的价值在于为行业发展划定清晰赛道;Gracenote案反映的实质是数字经济时代如何构建公平、可持续的数据价值分配体系。在数据成为核心生产要素的今天,建立兼顾保护与共享的规则生态,对产业长远发展的意义不亚于技术突破本身。