在科技圈里有个不怎么起眼但值得琢磨的事儿,就是大集群的算力看着高,实际干活的时间其实没那么多。Meta在跑Llama3预训练时出了419次岔子,这让大家都挺紧张。更惨的是,236BMoE的训练里,本来装了6000卡的机器,结果24小时里真正在算模型的时间只占到了82.12%,算下来差不多18%的时间机器都在搞恢复或者等修。这在那种万亿参数、上万块显卡的超级场景下,问题只会更棘手。这也不光是哪家公司的问题,整个行业都逃不掉“可靠性诅咒”。 要是仔细看看为啥故障老出现,就能发现挺复杂:出毛病的地方既有GPE和GPECPUDRAM这种关键内存,也有软件Bug,还有网口线缆和主板。每一个环节都在给故障率添把火。现在的集群规模大得吓人,组件数量也跟着猛涨,出问题的几率自然也就高了。在这种大的集群里头,想不出岔子简直不可能。 最近曙光推出的ScaleX40超节点产品挺受关注。虽然这东西概念早就有了,但真正敢大规模用的人不多,主要还是因为信不过它的可靠性。ScaleX40这回换了个玩法,用了无线缆正交背板的设计,把故障率硬生生压了30%到50%,系统能用率直接升到了99.99%,平时维护的时间也从以前的几天缩短到了几个小时。 曙光敢把这事儿摆上台面说,说明行业也有点自觉了。ScaleX40能不能真的解决“可靠性诅咒”还得看实际数据检验,但至少它指了条明路。现在AI发展这么快,算力提升成了推动各行各业创新的重头戏。可光有算力不行,关键得看它稳不稳、靠不靠谱。 希望未来能有更多的技术出来改变局面,少出错、多干活。在现在这个快速发展的时代里,可靠性不光是技术的根基,更是企业能不能长久活下去的关键。盼着以后技术进步能在算力和可靠性中间找个更好的平衡点,让整个行业都跟着更红火。