芯展速李蓁:ai超集群架构创新

说到计算基础设施的发展,谁都想给AI计算一个更好的平台。现在,全球都在往这个方向使劲儿。因为AI发展速度这么快,光靠处理器的性能提升已经不够用了。所以大家都在找解决数据供给和调度能力不足的办法,数据传输接口标准就是一个很关键的阀门。在这个背景下,中国的海光产业生态合作组织主办了一个AI超集群架构创新论坛,邀请了芯展速智能科技有限公司来分享他们的技术实践。芯展速公司的产品技术总监李蓁在这个论坛上谈到了很多有意思的问题。她把这个问题归纳为结构性失衡:计算核心的性能每年翻一番,但是数据存储和传输系统的性能增长速度相对较慢,这样一来就会出现剪刀差,阻碍整个系统效率的提升。不过她也提出了解决办法:PCIe 6.0技术就可以帮助平衡这两种性能的差距。这种接口技术把重点放在了数据流动上,而不是单纯提升带宽。那么具体怎么做到呢?当数据传输速率达到了64 GT/s这么高的水平时,信号完整性成为了一个很大的问题。这个速度给设计带来了新的挑战。 毕竟信号在电路板上会衰减,会影响到服务器内部布局的灵活性和可靠性。为了克服这个问题,企业们开始引入Retimer等芯片来调节信号。Retimer可以恢复时钟数据并重塑信号,确保数据在复杂链路上传输可靠。这对高密度、大规模AI集群的设计非常有帮助。 再来看硬件形态选择方面,E3.S规格固态硬盘的重要性不容忽视。这个规格超越了单纯接口标准,它还考虑到了AI服务器散热和能效瓶颈问题。E3.S固态硬盘可以在有限空间内提供更高密度存储和散热效率,从而降低总体功耗。对于数据中心来说能效比是很重要的指标。 这次技术进展中一个很重要的特点是协同创新与系统化突破。芯展速公司和国产中央处理器、交换机芯片、服务器固件等领域都进行了深度适配和联合优化。这样一来,就打通了一条从底层芯片、高速接口到整机系统的高性能数据通路。 这个过程中可以看出中国在信息技术基础设施领域创新步伐加快了很多。现在不再是追赶国际标准了,而是积极参与定义系统架构。 这次PCIe 6.0技术突破和产业化不仅是产品线的胜利,更是整个计算产业体系面向智能化时代一次重要能力重塑。未来底层硬件创新和上层应用需求之间将不断互动和相互促进。这次中国海光产业生态合作组织给我们提供了一个很好的例子说明协同创新的力量是多么强大。 现在我们在全球数字经济中注入新动能的时候到了!