问题:算力需求转向推理,但国产算力协同不足 随着大模型政务、制造、金融、医疗等领域的应用加速落地,算力需求正从训练转向推理。推理服务直接面向用户和生产流程,对响应速度、稳定性和成本控制要求更高。然而,国内算力供给呈现多来源、多架构并存的局面,芯片型号繁多且能力各异,实际部署中往往各自为政,难以统一调度,导致资源利用率低、扩容不灵活等问题,限制了算力的规模化应用。 原因:架构差异与协同机制缺失 业内人士指出,国产芯片在计算、存储、互连等各有优势,但异构环境下缺乏有效的协同机制:一是推理任务流程复杂,涉及高算力密集的预处理和依赖内存访问的生成阶段,单一芯片难以全程适配;二是不同厂商的软硬件栈和通信机制存在差异,跨芯片协作需兼顾性能、稳定性和兼容性;三是集群层面缺少对芯片能力的精准评估和动态调度,导致资源“能用但不好用”,难以形成规模效应。 影响:混合推理方案提升效率与体验 上海人工智能实验室推出的DeepLink混合推理方案,通过将推理任务拆分为预填充和解码阶段,并根据不同芯片特性进行调度,提升了异构芯片的协同效率。测试显示,在千卡规模集群中,该方案的首字响应时间优化了34.5%,推理吞吐能力提升32%。这个改进不仅优化了用户体验,还降低了算力资源占用,缓解了算力紧张与成本压力之间的矛盾。 对策:构建异构协同技术底座 DeepLink方案围绕异构协同设计了三大核心能力:一是策略求解器,评估芯片性能并制定任务分配策略;二是智能流量路由,实时调度以应对服务波动;三是异构通信库,提升跨芯片数据传输效率。目前,该方案已适配多款国产芯片,包括沐曦、壁仞等产品线,为多源算力统一调度提供了可行路径。 前景:推动算力资源统筹与生态协同 混合推理的意义不仅在于性能提升,更在于为全国算力资源的整合利用提供了技术支撑。一上,它有助于将分散的国产算力纳入统一资源池,减少闲置和重复建设;另一方面,增强了算力供给的弹性和扩展能力,降低行业使用门槛。未来,有关技术还需标准接口、软件生态、运维体系等上继续完善,以形成可推广的行业解决方案。
从芯片突破到系统协同,我国正探索一条特色的算力自主化路径;DeepLink方案的价值不仅体现在技术指标上,更在于其揭示的产业发展逻辑——通过盘活存量资源,结合顶层设计与市场机制,为破解“卡脖子”问题提供了新思路。这场算力革命,正为数字经济发展注入新动能。