google deepmind和youtube 联合拿出的static 框架,直接把大语言模型做“生成式检索”时的约束解码速度提

Google DeepMind和YouTube联合拿出的STATIC框架,直接把大语言模型做“生成式检索”时的约束解码速度提了948倍,连咱们在日常看到的推荐系统都得换一种玩法了。以前用那种纯文字的“嵌入式搜索”,大家肯定觉得麻烦还慢,所以这次用大模型来生成结果。可问题是这大模型有时会胡乱说话,搞得咱们看不到的商品ID都出来了,或者库存逻辑也给搞乱了。为了解决这事儿,他们把以前那种慢吞吞的树状校验给扔掉了。以前咱们是靠前缀树(Trie)来检查内容对不对的,在CPU或者GPU、TPU这种硬件上跑起来那叫一个慢。STATIC这次用了个数学上的新招,直接把复杂的树扁平化成静态压缩稀疏行(CSR)矩阵。这下硬件设备最喜欢的向量化运算就派上用场了,校验过程瞬间变得高效无比。拿那个有30亿参数的大模型做实验发现,用了STATIC之后一步延迟才0.033毫秒。跟以前那种用CPU跑的老方法比起来,这速度提升何止是千倍?就算跟现在那些用硬件加速的方案比,也领先了40倍不止。 YouTube那边也把这技术给用起来了,专门拿来保证推荐的内容必须是最近七天内新鲜出炉的。大家实际一看效果还真不错,新鲜视频的播放量直接涨了5.1%,点击率(CTR)也跟着上去了。这还不算完,“冷启动”时最头疼的问题也被搞定了。以前推荐从没见过的新商品总是不靠谱,现在有了精准的解码约束,模型的准确率一下子就实现了零的突破。