问题:传统权威工具书与生成式服务围绕内容使用权正面交锋。 据美国媒体报道,《大英百科全书》公司近日向纽约曼哈顿联邦法院递交诉状,称某人工智能企业训练大型语言模型过程中,未经许可使用其在线文章、百科条目及词典释义等资料,且产品输出中出现与原文高度相似的内容,导致原本可能访问其网站的用户被“摘要式答案”分流。诉状同时提出商标对应的主张,认为对方在引用时营造“已获授权”的印象,并在错误生成内容中不当标注或提及其品牌,损害商业声誉与用户信任。原告请求法院判令停止相关行为并赔偿损失,具体金额未披露。 原因:数据需求激增与权利边界模糊叠加,矛盾集中爆发。 生成式技术依赖海量语料训练,而百科、词典等结构化知识产品信息密度高、可用性强且具权威性,因而成为模型训练和检索增强场景中的重要数据来源。另外,现行版权制度对“训练是否构成复制”“输出与原作相似到何种程度构成侵权”“技术性中间复制是否适用豁免”等问题,在不同司法辖区仍存在解释空间。部分企业倾向以“转化性使用”“合理使用”等进行抗辩,但权利人强调:一旦输出对原内容形成可替代性,并直接影响订阅、广告与授权收入,就难以被视为合理使用。在流量竞争加剧、内容变现承压的背景下,这类分歧被深入放大。 影响:诉讼外溢效应明显,或重塑行业合规成本与竞争格局。 一是判例走向可能成为行业风向标。若法院对训练与输出的侵权边界作出更严格认定,企业将承担更高的授权成本,以及数据清洗和可追溯管理成本;若更倾向认可一定范围的合理使用,内容方可能转而通过技术水印、访问控制、反爬机制和更细化的授权条款来维护权益。二是内容生态的利益分配矛盾更突出。生成式服务以“直接给答案”降低用户跳转,削弱内容网站的流量入口与品牌触达,可能影响高质量知识生产的投入动力。三是商标与信誉风险上升为新的合规重点。权威机构名称一旦与错误信息绑定,既可能造成消费者混淆,也会削弱公众对信息可信度的信任。 对策:从“被动应诉”转向“规则+技术+商业”三位一体治理。 对内容权利人而言,应加快完善数字授权体系:明确训练、缓存、索引、摘要、再发布等不同使用场景的许可边界与收费模式;推进可机器读取的权利声明与可追溯标识,提高维权效率;并与平台合作建立“可验证引用”机制,使引用可回链、可审计、可计费。 对技术企业而言,合规不应止于风险提示,而需覆盖全链路:建立训练数据来源台账与审计制度,提升对受保护内容的识别与剔除能力;在产品端强化引用标注、链接回源与错误更正通道,降低“可替代性输出”对内容方的冲击;在商标与品牌引用上制定更严格的规则,避免误导性呈现。 对监管与行业组织而言,可推动标准化框架:提升训练数据透明度,形成授权合同范式,完善争议解决机制与跨平台收益分配规则;探索集体管理、统一授权窗口等方式降低交易成本,并为中小内容生产者提供更可操作的维权路径。 前景:高质量数据将从“可获取”走向“可定价”,合规合作或成主流。 从全球趋势看,围绕训练数据与输出责任的法律博弈仍将持续。随着案例积累与立法完善,训练数据的合规门槛将继续提高,权威内容的商业价值也可能被重新定价。对企业而言,依赖灰色抓取获取数据的路径将愈发难以长期维系;通过授权合作、收益共享与可信引用构建更稳定的合作机制,更符合产业可持续方向。对用户而言,未来产品竞争的关键不仅在于回答速度与覆盖面,更在于信息是否可核验、责任是否可追溯,以及知识供给是否可信。
当机器开始大规模“阅读”人类知识积累时,如何在技术创新与知识产权保护之间取得平衡,正成为全球治理的重要议题。这场诉讼不仅关乎两家企业的商业利益,也在推动数字时代知识使用边界与责任规则的更明确。正如联合国教科文组织《人工智能伦理建议书》所强调的,技术进步不应以削弱人类知识生产体系为代价;建立兼顾创新与保护的制度安排,将是智能时代必须回答的问题。