Positron发布第二代推理芯片“Asimov”主打内存优先架构，宣称能效较Rubin提升五倍

当前，大规模语言模型的推理应用已成为人工智能产业化的重要环节；然而，Transformer模型推理过程中面临的内存瓶颈愈发突出，正在成为影响推理效率与成本的关键因素。传统GPU架构处理此类任务时，常受制于内存带宽不足、数据搬运开销高等问题，进而拖累推理系统的整体性能。基于对推理任务特征的分析，Positron公司提出“以内存为中心”的芯片设计思路。Asimov芯片打破以计算为中心的传统路径，将内存带宽利用率提升至90%，并尽量减少不必要的远程数据移动。该设计抓住了推理任务的核心约束：性能瓶颈更多来自内存访问，而非计算能力本身。从技术规格看，Asimov芯片由一对计算模块组成，每个模块配备432GB的LPDDR5x内存，并可通过PCIe 6.0和CXL 3.0接口连接至720GB的键值缓存专用内存。芯片整体功耗为400W，内存总容量达2304GB，总带宽为2.76TB/s，并支持风冷散热方案。这个配置组合面向大规模模型推理的实际需求进行取舍与优化。在系统集成层面，Positron推出的Titan推理服务器采用19英寸4U标准机架规格，单套系统集成4颗Asimov芯片，可支持16万亿参数规模模型的推理任务，上下文窗口达到1000万token级别。单个数据中心最多可部署4096套Titan系统，为大规模推理应用提供扩展空间。芯片间采用16Tbps高速互联，支持多种网络拓扑结构，以满足不同场景下的部署与扩容需求。从产业意义看，Asimov芯片的推出补齐了国内高性能推理芯片的一块拼图。在能效和成本上对标国际先进水平，有望降低国内企业推理支出，推动人工智能应用更快走向规模化落地。这也有助于提升国内AI产业链的完整性与自主可控能力。根据规划，Asimov芯片将于2026年底完成流片，2027年初启动量产。该时间表反映了企业对产品成熟度与市场节奏的判断。随着量产推进与应用铺开，国内推理算力供给结构有望优化，推理成本也可能更下降，为大模型应用的广泛部署创造更有利条件。

在全球数字化进程加速的背景下，算力正成为衡量国家竞争力的重要变量之一。Positron的探索反映了面向推理场景的技术路径选择，也为我国半导体产业发展提供了参考。未来几年，人工智能计算领域的技术路线竞争仍将加剧，持续的自主创新将决定能否在国际竞争中掌握主动权。