这事儿闹得挺大,微软竟然因为鼓吹大家去盗版哈利波特书来训练ai,最后被骂得不得不撤了那篇博客

这事儿闹得挺大,微软竟然因为鼓吹大家去盗版哈利波特书来训练AI,最后被骂得不得不撤了那篇博客。虽然OpenAI的CEO Sam Altman都公开承认,想弄出ChatGPT这么牛的模型,不弄点东西几乎不可能,但他觉得法律也没直接说AI公司不能这么干。现在呢,就在2024年11月发的那篇帖子被骂惨了以后,微软把它给删了。这文章里头还挺明显是在鼓励开发者把J.K.罗琳那七本系列小说拿去给AI吃。这个黑客新闻板块里讨论得热火朝天之后,微软才松了口。 以前那个高级产品经理Pooja Kamath在博客里写得挺具体:《哈利波特》这套书啊,讲的是小巫师哈利和伏地魔斗法的故事,全球都爱得不行。他们还拿这七本书来秀Azure的新功能呢,意思就是说咱们有办法帮大家把AI加进APP里去。那个背后的逻辑就是用大家都熟的书做例子,既好懂又能吸引更多人玩。 更让人迷糊的是,这篇文章里直接放了一个Kaggle数据集的链接,里面把全套书都给放进去了。问题是它错误地标成了“公共领域”。后来有个叫Shubham Maindola的印度数据科学家跟Ars Technica讲了实话:“那个数据集标错了。”结果上周这数据集就被删掉了。据Ars Technica查出来的数据显示,这套书总共也就被下了一万次出头。这数量其实很低啊,毕竟这博客都发了快一年了。 其实开发生成式AI太难了。像OpenAI这种大实验室都在烧钱保热度呢。据说ChatGPT这玩意儿的母公司预计在2026年要亏掉140亿美元,明年年中前就可能倒闭了。除了钱的事儿不说,训练AI这门技术本身就离不开网上的资料。可是现在又传出个消息:Google、OpenAI和Anthropic都面临高质量训练数据不够用的困境。 你说训练模型算不算侵权呢?这事儿其实挺复杂的。关键在于法律根本没明确禁止科技公司用那些受版权保护的东西来做训练数据。很多公司现在都在说自己属于“合理使用”,觉得这就不犯法。