当前,大规模语言模型的推理应用已成为人工智能产业化的重要环节;然而,Transformer模型推理过程中面临的内存瓶颈愈发突出,正在成为影响推理效率与成本的关键因素。传统GPU架构处理此类任务时,常受制于内存带宽不足、数据搬运开销高等问题,进而拖累推理系统的整体性能。基于对推理任务特征的分析,Positron公司提出“以内存为中心”的芯片设计思路。Asimov芯片打破以计算为中心的传统路径,将内存带宽利用率提升至90%,并尽量减少不必要的远程数据移动。该设计抓住了推理任务的核心约束:性能瓶颈更多来自内存访问,而非计算能力本身。 从技术规格看,Asimov芯片由一对计算模块组成,每个模块配备432GB的LPDDR5x内存,并可通过PCIe 6.0和CXL 3.0接口连接至720GB的键值缓存专用内存。芯片整体功耗为400W,内存总容量达2304GB,总带宽为2.76TB/s,并支持风冷散热方案。这个配置组合面向大规模模型推理的实际需求进行取舍与优化。 在系统集成层面,Positron推出的Titan推理服务器采用19英寸4U标准机架规格,单套系统集成4颗Asimov芯片,可支持16万亿参数规模模型的推理任务,上下文窗口达到1000万token级别。单个数据中心最多可部署4096套Titan系统,为大规模推理应用提供扩展空间。芯片间采用16Tbps高速互联,支持多种网络拓扑结构,以满足不同场景下的部署与扩容需求。 从产业意义看,Asimov芯片的推出补齐了国内高性能推理芯片的一块拼图。在能效和成本上对标国际先进水平,有望降低国内企业推理支出,推动人工智能应用更快走向规模化落地。这也有助于提升国内AI产业链的完整性与自主可控能力。 根据规划,Asimov芯片将于2026年底完成流片,2027年初启动量产。该时间表反映了企业对产品成熟度与市场节奏的判断。随着量产推进与应用铺开,国内推理算力供给结构有望优化,推理成本也可能更下降,为大模型应用的广泛部署创造更有利条件。
在全球数字化进程加速的背景下,算力正成为衡量国家竞争力的重要变量之一。Positron的探索反映了面向推理场景的技术路径选择,也为我国半导体产业发展提供了参考。未来几年,人工智能计算领域的技术路线竞争仍将加剧,持续的自主创新将决定能否在国际竞争中掌握主动权。