问题——算力“热危机”加速显现 近年来,面向大模型训练与推理的算力需求持续增长,带动单机与单柜功率密度明显提升。业内信息显示,新一代训练芯片的峰值功耗相比上一代显著增加。高密度服务器配置下,短时间内排风温度就可能快速上升,触发芯片热保护并出现降频,算力输出随之下降。对数据中心而言,这并非单纯“温度偏高”,而是关乎连续稳定运行、资源利用率和服务质量的系统性挑战。 原因——风冷触及物理上限,能效与可靠性两头承压 风冷凭借成本相对可控、通用性强,长期支撑了互联网基础设施扩张。但当机柜功率从十年前常见的5—8千瓦,提升到当前智能算力集群普遍要求的30—50千瓦甚至更高时,空气作为传热介质的短板被迅速放大:空气比热容和导热能力有限,要带走同等热量就需要更大的风量、更高的风速以及更强的制冷能力,由此带来三重约束。 一是能耗约束。风机、空调和气流组织的投入会随功率密度上升而快速增加,散热系统自身能耗占比提高,推高整体用电与运营成本。 二是噪声与空间约束。风速提升会带来更高噪声,并使机房设计更复杂,运维难度随之加大。 三是可靠性约束。电子元器件长期高温运行会提升失效率;而高性能芯片普遍带有温控机制,温度超阈值会自动降频保护硬件,导致任务时延增加、集群效率下降。对用户侧,这可能表现为视频会议卡顿、短视频加载变慢、搜索响应变长等体验波动;对企业侧,则会影响算力交付能力与服务等级协议兑现。 影响——从“散热难题”演变为产业竞争的基础门槛 散热已不再是机房的配套环节,而正在成为算力基础设施能否建设、能否扩容、能否高效运营的关键门槛。首先,它决定“能不能上”。散热与供电能力不足时,高功率设备即使部署到位也难以稳定运行。其次,它决定“跑得快不快”。热管理不足引发的降频和故障风险,会吞噬昂贵芯片的有效算力,拉低投资回报。再次,它决定“绿不绿”。在“双碳”背景下,数据中心能效是监管与市场共同关注的指标,散热方案直接影响PUE水平以及用电结构优化空间。围绕散热与能效的路线选择,正在成为算力产业链竞争的新焦点。 对策——液冷走向主流,冷板与浸没并行演进 在该背景下,液冷凭借更高的传热效率与更精细的热管理能力,正加速从高性能计算等相对集中场景走向规模化应用。目前主流路线大体分为两类。 其一是冷板式液冷。方案在CPU、GPU等主要热源上安装金属冷板,通过内部流道让冷却液循环带走热量,并在机房端或机房外完成热交换。冷板液冷对服务器形态与运维体系的改造相对可控,便于在既有数据中心逐步升级,适合通用AI服务器与高密度机柜的规模部署,成为不少企业从风冷过渡的现实选择。 其二是浸没式液冷。方案将服务器部件浸入绝缘冷却液中,使液体与元器件直接接触,通过对流或相变实现更彻底的散热。浸没在换热能力、噪声控制与空间利用上潜力更大,但对设备形态、材料兼容、运维流程与供应链提出更高要求,也更依赖标准完善与工程验证。 从产业实践看,液冷普及并非简单“把水管接进机柜”,还涉及机房供配电改造、热交换系统、漏液监测、运维培训、应急预案以及全生命周期成本核算等完整工程体系。同时,液冷带来的余热回收也被视为提升能源综合利用率的重要方向,为数据中心与园区供暖、工业用热协同提供更多落地空间。 前景——标准化与规模化将决定液冷成为“新基建底座”的速度 展望未来,随着芯片功耗与集群密度继续上行,高算力数据中心对液冷的需求将从“提升体验”转向“保障运行”。液冷有望新建项目中成为优先选项,并在存量机房改造中加速渗透。下一阶段的关键在三上:一是标准体系与互联互通,推动冷却液、接口、机柜与监控管理的一致性,降低部署门槛;二是产业链协同与成本下降,通过规模化带动核心部件与工程交付能力成熟;三是安全与可持续要求,包括材料环保性、运行可靠性、维护便捷性以及余热利用的商业闭环。可以预见,散热能力将与供电能力一起,成为衡量算力基础设施现代化水平的重要指标。
在算力需求持续攀升的背景下,散热不再是“后端配套”,而是决定算力能否稳定释放的关键环节。液冷技术的普及不仅意味着工程体系升级,也将推动数字基础设施向更高效、更绿色、更可靠的方向演进。能否把握该轮热管理变革,将直接影响数字经济的运行韧性与创新速度。