AMD发布ROCm 7.2开源软件栈 支持新硬件加速AI计算性能

当前,大模型训练与推理需求持续增长,算力供给、软件栈适配和工程效率正成为产业升级的关键变量。对企业与开发者来说,硬件性能能否利用,很大程度取决于软件堆栈对新平台的支持进度、对关键算子的优化力度,以及对集群运行的稳定管理能力。因此,AMD发布ROCm 7.2.0版本,对开源软件堆栈进行集中升级,希望通过更紧密的软硬协同,提升AI计算体验与部署效率。 从“问题”看,AI应用从单机走向多卡、多节点,普遍面临三类挑战:其一,硬件迭代快,但生态适配需要周期,若缺少官方支持,模型迁移与部署成本会明显上升;其二,大模型推理对内存带宽、通信效率、矩阵乘等核心算子高度敏感,性能瓶颈往往出现内核实现与算子调度层;其三,规模化集群运营对功耗、稳定性与可观测性要求更高,缺少系统级管理能力会抬升运维复杂度与综合成本。 从“原因”分析,ROCm 7.2.0的升级方向与行业技术演进基本一致。一上,AI计算呈现“模型更大、并行更复杂”的趋势,软件栈需要内核、算子库、通信与运行时等层级协同优化;另一上,工具链与平台支持决定生态扩张速度,官方正式支持意味着驱动、编译与运行环境等关键环节更稳定,可降低研发与部署的不确定性。同时,多GPU节点的功耗与电源管理正成为数据中心精细化运营的重要环节,补齐软件层面的管理能力,有助于性能与能效之间取得更好的平衡。 从“影响”看,ROCm 7.2.0主要带来三上变化。首先,硬件生态层面,版本新增对多款新硬件的正式支持,覆盖AMD Radeon AI PRO R9600D、Radeon RX 9060 XT LP、Radeon RX 7700等独立显卡,以及近期推出的锐龙AI 400系列处理器平台。这将扩大可用硬件范围,便于更多开发者在统一软件栈下进行验证、迁移与部署,降低从研发到落地的门槛。其次,在关键工作负载层面,版本围绕Instinct MI355X、MI350X与MI300X等加速器进行针对性增强:通过内核级调优与内存带宽对应的优化,提升Meta Llama 3.1 405B等模型推理表现,并优化Llama 3 70B、Llama 2 70B等典型规模模型在相应平台上的性能;同时在MI300X上强化智谱GLM-4.6的GEMM算子性能,并改进DeepSeek的DeepEP开源通信库表现。这些优化将直接影响推理吞吐、响应时延与资源利用率,进而影响在线服务成本与用户体验。第三,在工程化与运维层面,ROCm 7.2.0还包含HIP运行时性能提升,并新增多GPU节点的节点电源管理等能力,深入强调集群场景下的稳定性与可管理性,为规模化部署提供支撑。 从“对策”角度看,面向企业用户与开发者,ROCm 7.2.0的价值不仅在于性能提升,也在于使用与管理更可控。建议相关技术团队在模型与业务评测中,围绕推理吞吐、时延、显存占用、通信开销与能耗等指标建立统一基线,对比升级前后关键链路变化,重点关注矩阵乘等核心算子与通信库的性能收益;在多卡场景下结合节点电源管理能力,探索以业务负载为导向的能效优化策略。同时,生态建设仍需与开源社区、框架与应用侧合力推进,持续完善工具链、文档与样例工程,减少迁移成本,沉淀可复用实践。 从“前景”判断,随着大模型应用向行业场景深入,推理侧的成本约束会更加突出,系统级的软硬一体优化将成为竞争焦点。ROCm 7.2.0在硬件覆盖、算子与通信优化、运行时与节点管理各上的集中升级,体现出产业从“单点性能”走向“系统效率”的趋势。未来,围绕更多模型结构、混合精度、长上下文与多模态推理场景的优化,以及对多节点互联与调度能力的持续增强,可能成为软件栈演进的重点方向。对开发者而言,更完整的支持矩阵与更稳定的工程能力,有望推动更多应用在多元硬件平台上高效落地。

数字经济持续推进的背景下,计算平台的开放性与兼容性愈发关键;AMD发布ROCm 7.2版本,一上强化了关键工作负载的性能与工程能力,另一方面也通过更完善的支持矩阵推动生态扩展。随着人工智能应用场景不断增长,软硬协同优化的价值将更显现,并为计算产业带来新的增长空间。