在大模型训练、行业智能化升级持续推进的背景下,算力基础设施面临“密度更高、能耗更大、部署更复杂”的多重挑战。
一方面,模型参数规模和数据吞吐量快速增长,推动单节点与集群对计算、网络、存储的协同能力提出更高要求;另一方面,能耗与散热成为制约算力扩张的重要瓶颈,传统风冷在高功耗GPU密集部署场景中压力加大,机房空间、电力配套与运维成本同步上升。
针对上述问题,业内正从“单纯堆叠硬件”转向“系统级优化”。
技嘉旗下子公司Giga Computing推出水冷AI服务器XN24-VC0-LA61,试图以更紧凑形态、异构算力组合与液冷方案,提升单位空间算力与能效表现。
该服务器基于英伟达GB200 NVL4平台打造,采用2U双处理器设计,面向CPU+GPU异构架构需求,并支持直接液体冷却,以降低高负载运行下的散热压力与噪声、能耗等问题。
从配置看,该产品集成两颗ARM架构的英伟达Grace CPU与四块英伟达Blackwell GPU。
CPU侧配备LPDDR5X ECC内存(单颗CPU标称480GB),GPU侧显存最高可选186GB HBM3E。
此类组合意在通过CPU与GPU更紧密的协同,服务于大规模并行计算、向量与矩阵运算密集型任务,并在训练与推理的不同负载曲线下,提升整体资源利用率。
与此同时,服务器强调“模块化扩展”,即在不必一次性部署完整机架级方案的情况下,为数据中心或科研机构提供可按需扩展的节点形态,降低初期投入与改造门槛。
网络与存储是决定集群效率的关键环节。
XN24-VC0-LA61在网络侧支持Quantum-X800 InfiniBand或Spectrum-X以太网平台:使用InfiniBand时单端口可达800Gb/s,采用以太网时最高可达400Gb/s。
高带宽、低时延互联有助于缓解分布式训练中的通信瓶颈,降低参数同步开销,提高多节点扩展效率。
存储方面,该服务器最高可选12个PCIe Gen5 NVMe硬盘位,并可选配BlueField等数据处理单元,以加强数据面卸载、网络与存储路径的处理能力,提升在数据密集型任务中的吞吐与稳定性。
供电配置上,产品提供80 Plus钛金认证的冗余电源,强调可靠性与能效管理。
业内普遍认为,液冷与高速互联的加速普及有其现实原因:其一,GPU功耗提升与机柜热密度上升,使得风冷方案在PUE控制、局部热点治理等方面的成本与难度增加;其二,模型训练与推理正走向规模化、常态化运行,算力基础设施从“项目型投入”向“运营型资产”转变,能效与可维护性成为全生命周期的核心指标;其三,产业链对“可扩展、可复用”的标准化节点需求增强,模块化产品更有利于分阶段建设、快速上线与容量弹性调整。
从影响看,此类面向异构算力与液冷的服务器方案,可能在三方面带来变化:一是提升单位机柜算力密度与集群效率,为大模型训练、推理集群和行业专用模型提供更具可持续性的基础设施;二是推动数据中心散热与供配电改造加速,促进液冷生态在机房规划、运维工具与供应链侧的完善;三是进一步强化“算力—网络—存储”一体化设计的重要性,促使企业在采购与部署时更关注系统级指标,而非单一部件参数。
对策层面,面向高功耗算力部署,行业需要从规划、建设、运维三端协同发力:在规划端,应结合业务负载特征与增长预期,统筹机房电力冗余、冷却能力与网络拓扑,避免“算力到位、配套不足”;在建设端,推动液冷与高速互联的标准化接口与验收体系,降低跨厂商集成成本;在运维端,强化对液冷系统可靠性、泄漏风险、冷却液管理与监测告警的制度化管理,同时建立能耗与性能的持续评估机制,以数据驱动优化。
展望未来,随着模型规模、推理需求和多模态应用进一步扩张,高能效算力将成为产业竞争的重要支点。
以液冷为代表的绿色算力技术路线,预计将在大型数据中心、科研计算与行业智能化场景中加速落地;同时,服务器产品形态将更强调模块化与可组合能力,支持按需扩展与快速迭代。
能否在能效、可靠性与可维护性之间取得平衡,将决定相关方案的市场接受度与应用广度。
在数字经济与实体经济深度融合的今天,算力已成为衡量国家竞争力的重要指标。
技嘉此次技术创新既是对产业需求的精准响应,也折射出硬件厂商向解决方案服务商转型的战略趋势。
当绿色计算与高性能算力实现有机统一,人工智能产业才能真正释放其变革潜力,为全球数字化转型注入持久动能。