这阵子,我们看到美国的 Akash Systems 给MiTAC Computing Technology这个公司打了3亿美元的大订单,他们联手推出了一款特别的AI服务器,号称是全球首批“钻石冷却”的产品。这项技术其实是想用金刚石散热来解决人工智能发展中一直存在的散热问题,毕竟现在AI对算力的需求太猛了,散热成了最大的拦路虎。以前的AI训练服务器功耗已经很高了,单张卡能飙到700W甚至更高,整个机架的功率密度更是突破了100kW大关。你想想看,成千上万个这样的大家伙凑在一起组成集群时,散热不仅仅是个配套工程,而是直接决定你能不能把算力全部发挥出来。以前的办法就是把热量通过热界面材料传给铜铝散热器再通过风冷或液冷带走,但面对这么大的功率密度,铜铝材料已经到了极限,导致芯片内部温度降不下来。这时候就得靠材料本身的热扩散能力了,这就是为什么现在大家都在找新路子。Akash Systems 和MiTAC发布的这个系统里就引入了钻石热扩散层。他们这套系统核心是AMD Instinct MI350X GPU配上双路AMD EPYC 9005处理器,还装了AMD Pensando Pollara 400网络接口卡和ROCm软件栈。虽然硬件配置上没什么太大的特别之处,但散热结构确实不一样了。他们把钻石层嵌入到GPU的散热堆叠结构里形成新的导热路径。根据他们的测试数据显示,用了这种材料之后GPU和HBM内存的温度最高能降个10度左右。更关键的是在同样功耗下每瓦算力能提升约22%,整体吞吐量在高温环境下也能提升大概15%。