完善数据治理这事,得把ai 产业往健康方向推一把

咱们聊聊完善数据治理这事,得把AI产业往健康方向推一把。前两天,央视“3·15”晚会曝光了一条挺扎心的灰色产业链,叫AI“投毒”。有记者花钱买了个“力擎GEO优化系统”,专门去编造根本不存在的智能手环,再到处撒网发布信息。结果显示,好几个AI大模型在回答问题的时候,居然自己主动推荐这款虚构的产品,还排在了前面。说白了,“投毒”就是故意往数据里掺假,把模型给带偏了。 其实数据污染这事儿早就有了,以前的搜索引擎不就经常有人玩操纵数据来刷排名吗?现在大模型虽然挺厉害,但它是靠大数据喂大的,“垃圾进、垃圾出”的老毛病可不好改。研究显示,要是把训练数据里混入了0.01%的假话,模型的有害输出会一下子增加11.2%;哪怕比例降到了0.001%,也就是千分之一,也能让有害输出上涨7.2%。这就好比一点小沙子掉进机器里都不行。 咱国家现在正大力推进AI的规模化应用,这就更得盯着数据质量和污染治理这事儿了。数据污染还特别容易引发“递归污染”,机器既被污染还自己生成污染内容,这就形成了一个恶性循环。就拿那个“力擎GEO”来举例,要是不赶紧管管,再加上生成的爽文成本几乎为零、产量又无限多,算法推荐一使劲儿,好东西全被垃圾给埋了,就成了“劣币驱逐良币”。 关键是这治理起来太难了!验证数据、过滤垃圾得耗费大量人力物力,还不一定能彻底干净。等模型能力退化了就像人脑子变笨一样,很难再恢复了。所以得从源头防着点,别让问题越积越多。 好在现在《生成式人工智能服务管理暂行办法》还有新版数据安全法已经把训练数据给管起来了,但这还远远不够。以后还得进一步完善规矩,重点就是要堵住数据污染的口子。 这事儿不光是咱国家的事,也是全球的共同难题。大家都得加把劲合作提升水平才行。