谷歌tpu和amd gpu的组合就得把基础打牢了谁能先跑通下一代大模型谁就赢了呢悬念就

谷歌和Meta签了个价值数十亿美元的合同,Meta买了谷歌的TPU,准备训练下一代大语言模型。《The Information》给出了消息,Meta这次不仅用谷歌的芯片,还打算多找几家供应商,不把鸡蛋全放在一个篮子里。 为什么Meta要换芯呢?原因之一就是成本太高了。NVIDIA的GPU虽然厉害,但是太花钱。谷歌的TPU在训练和推理上性价比很高。比如说Ironwood,它能提供超过118倍对手的FP8 ExaFLOPS,能耗还低好多。单台服务器能处理9.6太比特每秒的数据,这样Meta就不用花太多钱又能搞定大规模的模型训练了。另外,Meta之前自己搞了个MTIA芯片项目,不过遇到了技术难题。所以这次租谷歌的TPU,一是赶紧用上算力,二是给自己的MTIA留个迭代的时间。 谷歌这次也有自己的算盘。之前发布Ironwood的时候他们就说了,这是给私有数据中心准备的,不是云专用。这次租给Meta了,那以后直接卖给私有数据中心也不是不可能。如果真成了,NVIDIA在数据中心市场的10%收入可能就要没了。除了这个协议之外,他们还在和Anthropic谈百万级TPU的直售大单呢。看来谷歌是要把租和卖都搞起来了,云客户弹性扩容方便快捷,自己想买断也可以直接拿整盒芯片。 这下AI芯片市场可热闹了。以前GPU一个人说了算现在不行了。有了TPU、GPU、ASIC、FPGA这些竞争对手在后面跟着呢。Meta这次拿出了大钱预算给AMD买Instinct MI400的芯片,还给谷歌租了TPU。自己还在做MTIA芯片呢这种“全都要”的策略会逼着所有厂商不停地堆技术降价优化生态最终让技术迭代更快一点。 对中小企业来说这也是个好消息。有了更多供应商选择价格谈判就会更有优势。以前可能只能高价买或者自己研发现在可以“货比三家”了还有可能把更多底层接口开放出来方便中小企业使用算力成本会进一步下降AI技术落地速度就会更快了。 不过Meta的自研MTIA命运还是未知数呢。下一代产品针对训练场景做了升级但因为技术挑战可能又得延期了要是流片成功量产MTIA还能继续当训练主力要是再跳票那谷歌TPU和AMD GPU的组合就得把基础打牢了谁能先跑通下一代大模型谁就赢了呢悬念就在这里。