AMD发布ROCm 7.2开源软件栈支持新硬件加速AI计算性能

当前，大模型训练与推理需求持续增长，算力供给、软件栈适配和工程效率正成为产业升级的关键变量。对企业与开发者来说，硬件性能能否利用，很大程度取决于软件堆栈对新平台的支持进度、对关键算子的优化力度，以及对集群运行的稳定管理能力。因此，AMD发布ROCm 7.2.0版本，对开源软件堆栈进行集中升级，希望通过更紧密的软硬协同，提升AI计算体验与部署效率。从“问题”看，AI应用从单机走向多卡、多节点，普遍面临三类挑战：其一，硬件迭代快，但生态适配需要周期，若缺少官方支持，模型迁移与部署成本会明显上升；其二，大模型推理对内存带宽、通信效率、矩阵乘等核心算子高度敏感，性能瓶颈往往出现内核实现与算子调度层；其三，规模化集群运营对功耗、稳定性与可观测性要求更高，缺少系统级管理能力会抬升运维复杂度与综合成本。从“原因”分析，ROCm 7.2.0的升级方向与行业技术演进基本一致。一上，AI计算呈现“模型更大、并行更复杂”的趋势，软件栈需要内核、算子库、通信与运行时等层级协同优化；另一上，工具链与平台支持决定生态扩张速度，官方正式支持意味着驱动、编译与运行环境等关键环节更稳定，可降低研发与部署的不确定性。同时，多GPU节点的功耗与电源管理正成为数据中心精细化运营的重要环节，补齐软件层面的管理能力，有助于性能与能效之间取得更好的平衡。从“影响”看，ROCm 7.2.0主要带来三上变化。首先，硬件生态层面，版本新增对多款新硬件的正式支持，覆盖AMD Radeon AI PRO R9600D、Radeon RX 9060 XT LP、Radeon RX 7700等独立显卡，以及近期推出的锐龙AI 400系列处理器平台。这将扩大可用硬件范围，便于更多开发者在统一软件栈下进行验证、迁移与部署，降低从研发到落地的门槛。其次，在关键工作负载层面，版本围绕Instinct MI355X、MI350X与MI300X等加速器进行针对性增强：通过内核级调优与内存带宽对应的优化，提升Meta Llama 3.1 405B等模型推理表现，并优化Llama 3 70B、Llama 2 70B等典型规模模型在相应平台上的性能；同时在MI300X上强化智谱GLM-4.6的GEMM算子性能，并改进DeepSeek的DeepEP开源通信库表现。这些优化将直接影响推理吞吐、响应时延与资源利用率，进而影响在线服务成本与用户体验。第三，在工程化与运维层面，ROCm 7.2.0还包含HIP运行时性能提升，并新增多GPU节点的节点电源管理等能力，深入强调集群场景下的稳定性与可管理性，为规模化部署提供支撑。从“对策”角度看，面向企业用户与开发者，ROCm 7.2.0的价值不仅在于性能提升，也在于使用与管理更可控。建议相关技术团队在模型与业务评测中，围绕推理吞吐、时延、显存占用、通信开销与能耗等指标建立统一基线，对比升级前后关键链路变化，重点关注矩阵乘等核心算子与通信库的性能收益；在多卡场景下结合节点电源管理能力，探索以业务负载为导向的能效优化策略。同时，生态建设仍需与开源社区、框架与应用侧合力推进，持续完善工具链、文档与样例工程，减少迁移成本，沉淀可复用实践。从“前景”判断，随着大模型应用向行业场景深入，推理侧的成本约束会更加突出，系统级的软硬一体优化将成为竞争焦点。ROCm 7.2.0在硬件覆盖、算子与通信优化、运行时与节点管理各上的集中升级，体现出产业从“单点性能”走向“系统效率”的趋势。未来，围绕更多模型结构、混合精度、长上下文与多模态推理场景的优化，以及对多节点互联与调度能力的持续增强，可能成为软件栈演进的重点方向。对开发者而言，更完整的支持矩阵与更稳定的工程能力，有望推动更多应用在多元硬件平台上高效落地。

数字经济持续推进的背景下，计算平台的开放性与兼容性愈发关键；AMD发布ROCm 7.2版本，一上强化了关键工作负载的性能与工程能力，另一方面也通过更完善的支持矩阵推动生态扩展。随着人工智能应用场景不断增长，软硬协同优化的价值将更显现，并为计算产业带来新的增长空间。

AMD发布ROCm 7.2开源软件栈 支持新硬件加速AI计算性能

AMD发布ROCm 7.2开源软件栈支持新硬件加速AI计算性能