oisa 高密超节点参考设计,打造了一个大家都能玩得转的算力生态系统

话说摩尔线程找了中国移动研究院还有之江实验室这帮伙伴,一起搞出了个128卡高密度超节点的参考设计,把超大规模智算中心的新标杆给立起来了。现在全球智算集群动不动就是上万卡,甚至要往十万卡冲,以前那种八卡的服务器肯定不行了。因为参数量太大了,全靠集群通信来支撑算力增长,这种方式导致效率太低。大家现在都在琢磨怎么搞个强连接的架构。 这次他们用了OISA协同创新平台,联合发了个《OISA高密超节点参考设计技术规范》。这个规范主要就是为了解决现在智算中心的几个硬伤:通信卡脖子、供电压力大还有散热难。他们给整个智算中心定了个全栈的解决方案,为以后的高性能集群打下了基础。 在怎么排布硬件和怎么走线这件事上,他们做了很大的改动。这个设计打破了原来的空间布局限制,通过重新规划物理密度和扩展维度,把传统架构里的瓶颈给打通了。他们大胆用了超大号的高密度线缆,在标准单宽机柜里塞进了128张卡,还支持直接并机柜扩展到256张卡。这样算下来,单位面积里的算力密度蹭蹭往上涨。 从核心协议的角度看,基于OISA 2.0的原生内存支持功能,设计实现了跨节点的数据互通。再加上报文重构技术,卡之间的带宽能冲到TB每秒级别,延迟也降到了几百纳秒。这种在物理空间里塞满卡、在逻辑上高带宽互联的双重突破,不光让国产芯片能互相兼容通吃,还提供了跟单机一样爽的大规模模型训练环境。 至于供电和散热这两个大问题,他们也动了大手术。供电系统直接引入了高压直流和柜内集中供电的技术加上盲插功能。通过减少中间环节的电转换损耗,不仅让能耗降下来了,还给超级AI数据中心提供了稳定的动力源。 散热方面的处理更有意思了。原来液冷技术只是个可有可无的选项,现在它变成了超节点架构里的标配。针对单GPU超过2kW的散热需求做了深度优化后,数据中心的PUE值从以前风冷时代的1.4降到了1.05到1.15。有了这套智能监测流量、压力、温度的系统看着散热效率提升了几千倍。这种既保证系统可靠又能做到绿色节能的技术路线,绝对是智算产业可持续发展的必由之路。 这个设计的发布其实是个标志性的里程碑事件。这说明行业伙伴们在协同创新方面达成了共识。以前那种乱七八糟各自为战的方式终于变成了有体系、有标准的合作模式。 现在的规范整合了产业链上下游的资源,打造了一个大家都能玩得转的算力生态系统。通过芯片、设备还有应用的联动配合,给行业提供了更多选择。 展望未来呢,OISA平台还会接着搞开放合作的那套路子,把Chiplet、光互连还有内存池这些前沿技术都融合进来。中国移动和之江实验室这帮带头大哥还要扩大朋友圈去邀请更多开发者一起来设计定制化方案。 在开放中寻找突破点、在合作中实现增值增益共同把高效、绿色、可持续的智算未来蓝图给画出来。