月之暗面这个才两岁的公司敢去动transformer 底层架构的东西，说明中国ai 生态的变化

最近全球的人工智能圈子里有个很炸的消息：17岁的深圳高三生陈广宇跟一群顶尖专家一起，在月之暗面（Moonshot AI）的Kimi团队发了篇名叫《Attention Residuals》的论文。因为他在里面提出的新方法把Transformer架构底层的逻辑给改了，连马斯克都公开夸他说挺厉害。这事儿不光技术牛，大家还挺意外这么个少年能搞出来，都在琢磨以后该怎么培养AI人才。论文里说的那个“注意力残差”，直接指着大模型现在的一个大麻烦。以前的Transformer用的是“残差连接”，虽然能帮着解决深层网络难训练的问题，可这相当于把所有历史信息一股脑传给下一层，算起来太费资源，核心信息也被冲淡了。Kimi团队这次搞了个动态筛选机制，让模型自己挑出最有用的信息，就像在信息传输上装了个智能过滤器。数据显示，在Kimi Linear 48B模型上，这个办法能让训练计算量减少20%，性能还不下降，算是给行业突破只靠堆算力的现状找到了个新路子。这个署名名单里有37位作者呢，陈广宇和RoPE的发明人苏剑林、还有Kimi架构核心开发者张宇并列第一作者。按说他才学了一年多AI啊！他的学习路径挺互联网时代的：看开源论文、捣鼓GitHub项目、在社区里分享想法。去年他在社交平台写的技术反思被硅谷一家AI初创公司的CEO看中了，做完限时测试就拿到了实习机会。在Kimi团队期间，他很快就展示了实战能力，内部“黑客马拉松”他还拿了冠军。不过他挺清醒的，接受采访时老是提这是团队成果，还专门感谢那些搞模型扩展和基建的同事。大家都说陈广宇这事儿能反映出中国AI生态的变化。月之暗面这个才两岁的公司敢去动Transformer底层架构的东西，说明中国AI企业不光是做应用层的创新了。这小子能跟国际顶尖团队无缝配合，也证明了开源社区和社交媒体在打破人才流动壁垒方面有多管用。这种“非典型”的成长路径算是给全世界搞AI的人提供了新参考：利用开放的技术生态，年轻研究者能更早接触到前沿课题，在实战中从读书变成创造价值。