杨植麟谈kimi的未来发展

这事儿挺有意思，杨植麟3月18日在英伟达的GTC 2026大会上详细聊了Kimi的未来发展。他把模型的发展逻辑分成了三个部分：提升Token效率、处理超长上下文，还有搞智能体集群（AgentSwarms）。他觉得现在光堆资源已经不行了，得在计算、记性和协作这三块一起下功夫。为了把三个维度的好处加起来，他们要把很多以前大家觉得没啥问题的技术重新弄一下。杨植麟指出，咱们现在用的很多标准其实是八九年前的东西，现在已经成了瓶颈。尤其是2014年就开始流行的Adam优化器，在大规模训练里其实效率挺低。他们试过Muon优化器，发现效果不错，但训练到万亿参数的大模型时出了问题。团队后来弄出了MuonClip优化器，用Newton-Schulz迭代加上QK-Clip机制，既解决了发散问题，计算效率还能比传统的AdamW高两倍。针对2017年出来的全注意力机制（FullAttention），他们弄了个KimiLinear架构。这个混合架构打破了以前每层都得用全注意力的老规矩，靠优化递归存储管理，让128K甚至1M长的上下文处理速度提升了5到6倍。另外他们还针对残差连接做了改进，叫AttentionResiduals。不再是简单的加法了，而是通过Softmax注意力来选择前序层的输出，解决了深层信息被稀释的问题。这项工作让OpenAI联合创始人Karpathy都觉得他们对Transformer的理解还不够透彻。xAI的马斯克也说Kimi这事儿做得挺好。在跨模态研究上，杨植麟发现用视觉强化学习（VisionRL）训练模型能反过来提升文本能力。数据显示，经过视觉RL训练后，在GPQA-Diamond和MMLU-Pro这些纯文本基准测试里能提高约2.1%。这说明空间推理和视觉逻辑变强了也能帮模型变得更聪明。最后杨植麟聊到了智能体集群的扩展。他觉得以后的AI会是很多Agent一起干活。Kimi K2.5里引入了Orchestrator机制，能把一个大任务分给几十个Agent并行处理。为了防止某个Agent一断链子就全废了，他们设计了一种新的奖励函数来激励大家学会分解任务和并行干活。总结下来就是说以前搞研究光有新想法没用，因为算力不够没法做实验。现在有了足够的资源和“缩放阶梯”（ScalingLadder），研究者就能做严谨的实验得出靠谱的结论。所以Kimi能从那些看着老的技术里挖出新突破。Kimi会继续走开源的路子，把MuonClip、KimiLinear和AttentionResiduals这些底层创新贡献给开源社区，打造更强的模型推动AI普惠发展。