cuda agent 横空出世,ai在cuda 内核优化这块终于有了大突破

字节跳动的Seed团队与清华大学AIR强强联手,搞出了个叫CUDA Agent的新东西,专门拿AI来帮CUDA内核写代码、调性能。到了2026年,这个研究项目引发了学术界的大轰动。这套模型不光能写出对的CUDA代码,还能把代码跑得更快。在简单和中等复杂的任务里,它的速度比torch.compile这种老工具快两倍;到了特别难搞的任务上,更是把速度提升了92%。就算是在那些最难熬的环境里,CUDA Agent也能把Claude Opus 4.5还有Gemini 3 Pro这些聪明的模型给比下去,领先幅度大概有40%。 以前搞CUDA内核优化,那可是个苦差事,得懂一大堆硬件知识。传统的AI写代码往往靠提示词大法或者反反复复来回折腾才能调通,根本摸不透底层硬件是怎么回事。CUDA Agent的点子就在于,性能好坏不光要看代码写得对不对,关键得看它懂不懂硬件怎么转。研究人员把强化学习跟实际的性能数据合二为一,盯着GPU跑得有多快看,而不是光看编译成功没成功。 拿KernelBench基准测试来练手,结果非常抢眼。在不同难度的关卡里,CUDA Agent都比torch.compile快出一大截。尤其是那个Level-3难度的关卡上,性能提升率直接飙到了92%。这个系统用了一大堆智能体在那搞强化学习,既能自己合成数据又能保证分析环境不乱套,这么一来内核的质量和跑起来的效率就有了双重保障。 为了帮大家更好地训练AI去优化内核,研究团队还把CUDA-Agent-Ops-6K数据集给发出来了。这套数据集走的是三步流程来搭建的路子,保证训练样本质量高、被污染的风险低,以后大家做相关研究都能有个靠谱的地基。训练的过程也是分阶段来搞的,特别注重系统稳不稳、能不能在长的上下文下持续涨分。 虽然现在CUDA Agent表现得很厉害,但研究人员也说了它也有短板。比如没拿它跟更复杂的编译器框架去比过一刀两断谁更牛;另外还得靠强大的计算资源撑着才行。未来想办法弄出更高效的训练策略应该是个重要的研究方向。 这次CUDA Agent的横空出世,意味着AI在CUDA内核优化这块终于有了大突破。它告诉咱们全自动的、超高性能的计算基础设施就在不远处等着咱们呢。