4款新芯片，叫mtia，专门给大模型做推理用

听说Meta这回真的拼了，一口气推出了4款新芯片，叫MTIA，专门给大模型做推理用。这系列一共出了四代，全是跟博通（Broadcom）合作弄出来的，说是未来两年就要全面铺开。他们说为了加快进度，优先搞快速迭代开发，定位就是推理优先，而且直接用行业标准来做，让大家用起来没压力。这4款芯片里，MTIA 300已经在生产了，主要给排序和推荐模型用；400现在正在实验室磨洋工，很快就进数据中心；450和500是为了推理准备的，计划在2027年初和下半年大规模上量。据说从300到500，HBM带宽翻了4.5倍，计算FLOPs直接多了25倍。跟别的厂家不一样，Meta这次没死磕峰值算力，反倒更看重内存吞吐量和效率。你看那个规格表，带宽和容量涨得猛，算力倒是稳步提升。说白了就是为了在封装里塞进更多东西，把延迟和功耗降下来。他们还在硬件上加速了FlashAttention和混合专家网络计算，专门设计了一种自定义的低精度数据类型。 MTIA 450支持MX4格式，它的MX4 FLOPs是FP16/BF16的6倍。这样用混合低精度计算就不用操心数据转换的软件开销了。以后换芯片的时候也不用大动干戈，因为400、450、500这仨都用一样的机箱和网络基础设施，只要直接换掉就能用。这模块化的设计让他们能保持6个月就出一代的速度，比行业里那种一两年才更新一次的节奏快太多了。软件方面也是无缝对接的，栈直接跑在PyTorch、vLLM和Triton上面，支持torch.compile和torch.export。这意味着生产模型不用重新写代码，就能在GPU和MTIA上随便跑。现在Meta已经在自家应用里用了几十万颗这种芯片做内容和广告的推理了。这事儿发生在他们刚跟AMD签了1000亿美元AI合作协议的两周后。看来Meta是铁了心要摆脱对英伟达的依赖，把MTIA捧到推理任务的核心位置上去。