17岁高中生拿下kimi 顶级独角兽核心架构论文

今年早些时候,马斯克在推特上公开点赞中国南京这家名为Moonshot AI的独角兽公司,特别提到Kimi团队搞出了“注意力残差”这项技术,让人眼前一亮。这篇论文其实是为了改进大模型的底层信息传递结构,把过去那种比较死板的“残差连接”方式给替换掉了。因为大家都知道,Transformer架构用久了,层与层之间的信息老是被稀释,关键数据很容易就丢了。Kimi团队想了个新招:让当前这一层能够主动去挑选并聚合前面层中更重要的信息,而不是傻傻地把所有东西都一股脑儿地传过去。这样一来,就能把堆积参数和烧算力之外的新路径给找出来——通过优化底层结构来提升信息利用效率。 有意思的是,这篇论文的共同第一作者里竟然有一位来自深圳的17岁在读高中生陈广宇。他接受采访时就说别老盯着个人写,要多聊聊技术和团队。他强调说这是大家一起干出来的成果。这次论文是陈广宇、张宇还有苏剑林三人一起搞出来的。张宇是Kimi高效模型架构的重要研究者,苏剑林则是大模型旋转位置编码(RoPE)方法的提出者。 陈广宇本身就是个硬核玩家,他在美国顶尖小型实验室Tilde Research做过AI研究,还参加过美国计算机奥林匹克竞赛铂金组比赛,在Kimi内部拿下过48小时“黑客马拉松”冠军。他是通过自学经典论文、跟踪开源项目一步步摸上来的。后来因为在社交平台分享技术得到了硅谷AI初创公司的实习机会,去年11月正式加入Kimi团队实习。这一年来他在团队里负责核心研发工作,也从学生变成了一线贡献者。 对于这次以第一作者身份拿下Kimi顶级独角兽核心架构论文这件事,陈广宇觉得这是“硅谷震动级”的大事。大家都能看到中国高中生现在已经在搞前沿架构创新了。他一再表示成绩离不开团队里每一位成员的付出。 来源:扬子晚报/紫牛新闻记者 宋世锋,综合深圳发布、深圳特区报关注南京择校矩阵媒体与 1000000 家人共同成长点喜欢。