Positron 推出了他们的推理芯片 Asimov,把能效表现提升到了英伟达 Rubin GPU 的五倍。Positron 表示,这个专为 Transformer 推理优化的芯片,内存带宽利用率高达 90%,给高参数模型和大上下文窗口推理提供支持。这次设计不仅给计算模块提供了脉动阵列,还优化了数据传输路径。每对计算模块给 432GB 的 LPDDR5x 内存相连,再通过 PCIe 6.0 和 CXL 3.0 连接到至多 720GB 的 KV Cache。所有芯片整合进一个风冷冷却的 4U 机架内,这就是 Positron 要推出的 Titan 服务器系统。IT之家消息透露,这次发布的是 Asimov 第二代 ASIC 产品。Asimov 的 Token 能效和性价比都做到了 Rubin 的五倍。 团队相信 Transformer 推理的瓶颈在于内存而非算力,所以在设计中把内存放在了优先级的位置,尽可能消除不必要的远程数据传输。Positron 计划在 2026 年底让芯片完成流片,紧接着就在 2027 年初开始生产这个新品。这个 Titan 系统能容纳 4 颗 Asimov 芯片,总带宽达到了 2.76 TB/s,支持 16T 参数模型和 10M 上下文窗口。随着芯片间互联速率提升到 16Tbps,服务器整体 TDP 定为 400W。 除了优化算力结构外,Positron 还特别强调对多样化数据格式的支持。尽管每次需要处理海量数据格式变动,但其设计仍保证了高度统一的处理效率。无论是 PCIe 连接还是 CXL 总线都在这套系统里得到了应用。 针对市面上常见的软件生态问题,Positron 也给出了自己的解决方案。通过硬件级别的互联带宽增强与内存优化相结合的方式来提升处理能力。这次发布的产品不仅把能效比提升到了一个新高度,更是为未来更大规模的推理需求做好了准备。 尽管技术路径上选择了非英伟达的架构方向,但 Positron 在实际性能指标上并不落下风。通过把每一块内存与计算模块紧密结合的方式,大大减少了不必要的数据传输开销。每块计算模块都通过高速总线连接着大容量内存,从而保证了整体数据处理的流畅度。 至于用户关心的实际部署问题,Titan 系统通过 19 英寸 4U 机架的形态实现了高密度部署。单系统最多能容纳 4096 套 Titan 装置来满足不同场景下的使用需求。通过多套设备的叠加应用,系统可以轻松应对复杂的 AI 推理任务。 对于未来的发展方向,Positron 已经有了清晰的规划。接下来将把重点放在批量生产和产品落地方面来推动技术转化成实际的商业价值。随着技术的不断成熟与成本的降低,这种高性能推理芯片有望在更广泛的领域得到应用。