ai给cuda 内核的编写和优化出了大力,让人眼前一亮

2026年,字节跳动的Seed团队和清华大学的AIR搞了个大动作,联合推出了CUDA Agent。这次研究让AI给CUDA内核的编写和优化出了大力,让人眼前一亮。大家都挺关注这块的,因为他们的模型不光能写对代码,还特别会调优,让任务跑得飞快。在简单和中等难度的活儿上,它比那个叫torch.compile的工具快了两倍;碰上难题,提升更是高达92%。哪怕是最刁钻的环境,CUDA Agent也比Claude Opus 4.5和Gemini 3 Pro高出40%。 以前做内核优化这行特别难,得懂很多硬件知识,以前那些AI生成代码的法子也不靠谱,全靠提示或者反复调优,根本不懂底层咋回事。CUDA Agent这次玩的不一样,他们觉得性能不光看代码对不对,更得吃透硬件是咋回事。研究团队把强化学习和真实的运行数据揉在了一起,不玩虚的,直接盯着GPU跑多快去。 用KernelBench测下来,成绩真是拿得出手。不同难度级别上都比torch.compile快了很多,特别是到了Level-3级别,92%的提速简直没谁了。这系统用的是个挺猛的智能体强化学习机制,还能自己造数据练手,保证质量又稳又准。为了帮着做研究,团队还把CUDA-Agent-Ops-6K数据集拿了出来。这数据集是分了三阶段做的流水线构建出来的,样本质量高不说,污染也少得很。 训练流程也弄得挺讲究的分了好几步走。这样一来就算是在很长很长的上下文中跑程序,系统也能稳当当地把奖励长上去。虽然它现在表现这么猛,但也有个缺点就是没跟更复杂的编译器框架比过。以后要是能找出更省电又省钱的训练法子就好了。 反正这次CUDA Agent的出现算是把AI这块的老底给掀起来了。这预示着以后咱们的计算机硬件可能真能全自动、而且跑得飞快。