杨植麟谈kimi的未来发展

这事儿挺有意思,杨植麟3月18日在英伟达的GTC 2026大会上详细聊了Kimi的未来发展。他把模型的发展逻辑分成了三个部分:提升Token效率、处理超长上下文,还有搞智能体集群(AgentSwarms)。他觉得现在光堆资源已经不行了,得在计算、记性和协作这三块一起下功夫。为了把三个维度的好处加起来,他们要把很多以前大家觉得没啥问题的技术重新弄一下。杨植麟指出,咱们现在用的很多标准其实是八九年前的东西,现在已经成了瓶颈。尤其是2014年就开始流行的Adam优化器,在大规模训练里其实效率挺低。他们试过Muon优化器,发现效果不错,但训练到万亿参数的大模型时出了问题。团队后来弄出了MuonClip优化器,用Newton-Schulz迭代加上QK-Clip机制,既解决了发散问题,计算效率还能比传统的AdamW高两倍。针对2017年出来的全注意力机制(FullAttention),他们弄了个KimiLinear架构。这个混合架构打破了以前每层都得用全注意力的老规矩,靠优化递归存储管理,让128K甚至1M长的上下文处理速度提升了5到6倍。另外他们还针对残差连接做了改进,叫AttentionResiduals。不再是简单的加法了,而是通过Softmax注意力来选择前序层的输出,解决了深层信息被稀释的问题。这项工作让OpenAI联合创始人Karpathy都觉得他们对Transformer的理解还不够透彻。xAI的马斯克也说Kimi这事儿做得挺好。在跨模态研究上,杨植麟发现用视觉强化学习(VisionRL)训练模型能反过来提升文本能力。数据显示,经过视觉RL训练后,在GPQA-Diamond和MMLU-Pro这些纯文本基准测试里能提高约2.1%。这说明空间推理和视觉逻辑变强了也能帮模型变得更聪明。 最后杨植麟聊到了智能体集群的扩展。他觉得以后的AI会是很多Agent一起干活。Kimi K2.5里引入了Orchestrator机制,能把一个大任务分给几十个Agent并行处理。为了防止某个Agent一断链子就全废了,他们设计了一种新的奖励函数来激励大家学会分解任务和并行干活。 总结下来就是说以前搞研究光有新想法没用,因为算力不够没法做实验。现在有了足够的资源和“缩放阶梯”(ScalingLadder),研究者就能做严谨的实验得出靠谱的结论。所以Kimi能从那些看着老的技术里挖出新突破。Kimi会继续走开源的路子,把MuonClip、KimiLinear和AttentionResiduals这些底层创新贡献给开源社区,打造更强的模型推动AI普惠发展。