oisa全向智感互联平台的东西,大家一起搞出了一个规范

摩尔线程跟中国移动研究院、之江实验室这些伙伴一起,把一个128卡的超密集节点参考设计给推出来了。现在全球的智算集群规模都到了万卡级别,甚至快追上十万卡了。传统那种单机八卡的服务器,到了要跑超万亿参数的大模型时,因为网络通信开销太大,算力增长就被卡住了,所以现在大家都往那种互联能力强的超节点架构上转。他们这次搞了个OISA全向智感互联平台的东西,大家一起搞出了一个规范,专门解决智算中心现在面临的网络瓶颈、电不够用、散热也不行的问题。 这个规范说,要在物理摆放和逻辑连接上把空间密度和扩展方式都重新弄一遍,把老架构里的算力增长障碍给破掉。设计里直接把大尺寸的高密度线缆给用上了,在原本32到64卡互连的基础上,让标准机柜里塞下了128张卡,还能通过并机柜做到256卡的部署。这一下单位土地上的算力产出就上来了。 协议方面基于OISA 2.0版本的原生内存支持,做到了跨节点直接访问数据,再加上报文重构技术,卡之间的带宽达到了TB每秒级别,时延也只有几百纳秒。这种把物理空间和逻辑互联都堆上去的做法,不光支持国产芯片互相兼容,也给搞大规模模型训练的人提供了跟单机差不多快的协同环境。 现在单颗GPU功耗都到了700瓦往上跑了,机柜功率也动不动就350千瓦甚至更高。OISA方案从供电和散热两方面做了大革新。供电这边引入高压直流系统加上柜内集中供电和盲插技术,省掉了不少中间转换环节的损耗。散热方面液冷变成了标配,针对单GPU两千瓦以上的需求深度优化了一下,把PUE值从风冷时代的1.4降到了1.05到1.15。 靠着监测流量、压力和温度的智能系统来做诊断,这种导热效率翻了好几千倍的技术在保证系统靠谱的同时,也给智算产业指出了一条绿色发展的路。业内觉得这事儿是产业各方凑一块儿搞合作的一个重要里程碑标志着智算基础设施从各自乱搞变成了大家一起按照规矩搞的新阶段。 这个规范把上下游的资源整合起来了建立了一个更包容的算力生态大家把芯片、设备、应用这些环节都联动起来给行业提供了更多技术选择以后OISA平台还要接着用开放、合作、共赢的原则去融合Chiplet、光互连还有内存池这些新技术想和伙伴一起去探索计算的极限像中国移动、之江实验室这些代表还要扩大朋友圈邀请更多开发者来一起定制方案。