自动换个样本池来算分,这对以后做实际部署省资源可是帮了大忙。现在这技术在外面已经火了

最近通义实验室自然语言智能团队在个性化奖励模型这块搞了个大动作,他们弄出了个叫P-GenRM的新模型,这次突破还被ICLR 2026这种顶级会议给盯上了。传统的奖励模型老问题就是太死板,没法灵活应对用户的各种新需求,比如刚加的新用户或者说很个性化的要求。这次研究团队就把目光投向了生成式建模,打算用这个框架来解决难题。他们把整个评估过程拆成了三块:先从用户的聊天数据里挖出动态偏好画像,再根据具体的场景特点制定打分标准,最后把多维度的分数凑在一起算总分。这么一套组合拳下来,原本那种感觉摸不着头脑的判断就变得有理有据了。 在训练的时候,研究团队玩了个分阶段的强化学习策略。刚开始先用监督学习让模型有个基本功底,接着就引入强化学习让它自己去琢磨用户到底想要啥。针对那些数据特别少的场景,他们还设计了一套课程学习的办法,慢慢增加样本的难度,结果在处理那些边缘案例上的本事一下子提高了37%。 推理这一块也是他们的一个亮点。他们搞了个测试时的扩展机制,结合蒙特卡洛采样和分析相似用户群来把评估的方差降下来。特别是对付那些数据很少的新用户,这个机制能自动换个样本池来算分,既保证了稳定又把适应时间缩短到了原来的五分之一。更厉害的是,在把参数量砍掉40%的情况下,P-GenRM在个性化测试里照样把现有最好的模型给比下去了。 为了验证效果,他们在一个有200万组多模态数据的大测试集上试了一把。结果显示,在客服对话质量评估、教育辅导推荐这些任务里,个性化对齐的指标比老模型高出了29%到42%。而且就算把模型规模缩到原来的60%,性能还是很牛,这对以后做实际部署省资源可是帮了大忙。 现在这技术在外面已经火了。专家都说把这种能解释的生成式推理加进奖励模型里好处太多了,不光让过程更透明了,跨场景用的时候也更灵活。研究团队现在正忙着跟好多互联网公司谈合作呢,想看看能不能把这技术用在智能客服和个性化内容生成上。代码和数据集也都开源了,大家都可以一起研究研究。