最近全球的人工智能圈子里有个很炸的消息:17岁的深圳高三生陈广宇跟一群顶尖专家一起,在月之暗面(Moonshot AI)的Kimi团队发了篇名叫《Attention Residuals》的论文。因为他在里面提出的新方法把Transformer架构底层的逻辑给改了,连马斯克都公开夸他说挺厉害。这事儿不光技术牛,大家还挺意外这么个少年能搞出来,都在琢磨以后该怎么培养AI人才。 论文里说的那个“注意力残差”,直接指着大模型现在的一个大麻烦。以前的Transformer用的是“残差连接”,虽然能帮着解决深层网络难训练的问题,可这相当于把所有历史信息一股脑传给下一层,算起来太费资源,核心信息也被冲淡了。Kimi团队这次搞了个动态筛选机制,让模型自己挑出最有用的信息,就像在信息传输上装了个智能过滤器。数据显示,在Kimi Linear 48B模型上,这个办法能让训练计算量减少20%,性能还不下降,算是给行业突破只靠堆算力的现状找到了个新路子。 这个署名名单里有37位作者呢,陈广宇和RoPE的发明人苏剑林、还有Kimi架构核心开发者张宇并列第一作者。按说他才学了一年多AI啊!他的学习路径挺互联网时代的:看开源论文、捣鼓GitHub项目、在社区里分享想法。去年他在社交平台写的技术反思被硅谷一家AI初创公司的CEO看中了,做完限时测试就拿到了实习机会。在Kimi团队期间,他很快就展示了实战能力,内部“黑客马拉松”他还拿了冠军。不过他挺清醒的,接受采访时老是提这是团队成果,还专门感谢那些搞模型扩展和基建的同事。 大家都说陈广宇这事儿能反映出中国AI生态的变化。月之暗面这个才两岁的公司敢去动Transformer底层架构的东西,说明中国AI企业不光是做应用层的创新了。这小子能跟国际顶尖团队无缝配合,也证明了开源社区和社交媒体在打破人才流动壁垒方面有多管用。这种“非典型”的成长路径算是给全世界搞AI的人提供了新参考:利用开放的技术生态,年轻研究者能更早接触到前沿课题,在实战中从读书变成创造价值。