特斯联把512张ai加速卡变成了一个像大脑一样协同工作的整体

前段时间,特斯联搞出了T-Cluster 512这款新品,不光是在能效和安全这块儿做了升级,最主要的是在怎么把设备连在一起这件事上下了很大功夫。 大家平时总说的那种靠大量堆机器来搞算力的老办法,通常是靠 InfiniBand 或者 RoCE 这类高速网把很多服务器连起来。但要是真碰到训练个大模型那种场面,需要用成百上千张卡的时候,跨节点传数据实在太慢太占带宽,机器就老是在那儿干等着不动弹,算力量子利用率直接就跌到了谷底。 T-Cluster 512这次最大的创新点,就是把这种大规模组建设计给改了。以前大家都只知道往外面扩(Scale-out),现在它搞了个双层设计:在柜子里面先把密度做大(Scale-up),外面再去横向扩展。这就把以前那种堵在机房间的“堵车点”,给挪到了节点之间的“小圈子”里来处理了。 先说Scale-up那边,它在一个柜子里搞了个多级交换的全互联拓扑。以前一个柜子里的AI加速卡也就互相传个8张左右的数据,现在直接扩展到了64张全互联。这么一来,任意两张卡之间都有一条高速路能直达,完全不用绕路去走外面的交换机。这就好比在城里修了个密密麻麻的快速路网,没有红绿灯也不用排队,任何地方的交通都能瞬间打通。 再看Scale-out这部分,它把每个64卡的超节点当成了一个“超级大脑”,然后用高性能的横向网络把这些大脑连起来。这就好比把几个大城市通过高铁或者高速公路连在一起,变成了一个协同高效的城市群。以前分布式计算的最小单位是8张卡的服务器,现在直接变成了64张卡的超节点。这种结构特别适合搞大模型训练里那种要频繁同步梯度的张量并行操作,还有混合专家模型(MoE)里的All-to-All通信,很多开销都在柜子里就被消化掉了。 这套架构还有一个特别牛的地方是支持Prefill-Decode分离(PD分离)。在自回归解码的过程中,超节点内部的高速互联能保证KV Cache在不同的AI加速卡之间快速同步。这样一来,生成每个Token的时间就大大缩短了,推理的吞吐量也就跟着上去了。 基于这种新结构,T-Cluster 512在性能上也有了飞跃:片间的带宽比以前快了8倍,机柜间的总带宽超过25.6TB/s。关键是有效带宽利用率达到了90%以上,传输过程里基本上看不到丢包的情况。通信延迟降到了百纳秒级别,AI加速卡不再老在那儿空等数据了。这样算下来,单机柜的训练性能能提升10倍。 特斯联觉得,在AI算力这块儿,网络性能和计算性能不能简单地看成是两个加数相加的关系。它们是深度融合的关系,“算力”乘以“连接”才是真的乘法效应。这次的Scale-up加Scale-out这种新玩法,就是把“算力×连接”的概念变成了实实在在的性能提升。 作为我国AIoT领域的老前辈,在AI 1.0时代,特斯联是通过AIoT技术把成千上万的物联网设备给连起来的。到了AI 2.0时代,它就把在项目里积累的“连接即服务”能力搬到了算力这边。通过高速互联技术,把512张AI加速卡变成了一个像大脑一样协同工作的整体。 现在的T-Cluster 512不光能兼容昆仑芯、天数智芯这些国产加速卡,还能轻松扩展到1024张甚至更多。这为咱们的AI算力从以前那种瞎堆硬件的“粗放模式”,变成现在这种精雕细琢的“精细协同模式”提供了一条关键的路数。