听说Meta这回真的拼了,一口气推出了4款新芯片,叫MTIA,专门给大模型做推理用。这系列一共出了四代,全是跟博通(Broadcom)合作弄出来的,说是未来两年就要全面铺开。他们说为了加快进度,优先搞快速迭代开发,定位就是推理优先,而且直接用行业标准来做,让大家用起来没压力。 这4款芯片里,MTIA 300已经在生产了,主要给排序和推荐模型用;400现在正在实验室磨洋工,很快就进数据中心;450和500是为了推理准备的,计划在2027年初和下半年大规模上量。据说从300到500,HBM带宽翻了4.5倍,计算FLOPs直接多了25倍。 跟别的厂家不一样,Meta这次没死磕峰值算力,反倒更看重内存吞吐量和效率。你看那个规格表,带宽和容量涨得猛,算力倒是稳步提升。说白了就是为了在封装里塞进更多东西,把延迟和功耗降下来。他们还在硬件上加速了FlashAttention和混合专家网络计算,专门设计了一种自定义的低精度数据类型。 MTIA 450支持MX4格式,它的MX4 FLOPs是FP16/BF16的6倍。这样用混合低精度计算就不用操心数据转换的软件开销了。以后换芯片的时候也不用大动干戈,因为400、450、500这仨都用一样的机箱和网络基础设施,只要直接换掉就能用。这模块化的设计让他们能保持6个月就出一代的速度,比行业里那种一两年才更新一次的节奏快太多了。 软件方面也是无缝对接的,栈直接跑在PyTorch、vLLM和Triton上面,支持torch.compile和torch.export。这意味着生产模型不用重新写代码,就能在GPU和MTIA上随便跑。 现在Meta已经在自家应用里用了几十万颗这种芯片做内容和广告的推理了。这事儿发生在他们刚跟AMD签了1000亿美元AI合作协议的两周后。看来Meta是铁了心要摆脱对英伟达的依赖,把MTIA捧到推理任务的核心位置上去。