问题——算力需求快速攀升,而业务负载又越来越需要定制化,两者之间的矛盾正加剧。Meta首席财务官苏珊·李在摩根士丹利主办的一场技术会议上表示,公司部分工作负载具有明显的专用属性,排序与推荐将是自定义芯片最先落地的方向,并希望在此基础上,逐步把自研处理器延伸到未来模型训练等更高算力密度的场景。虽然Meta不是云服务商,但其运营着全球规模领先的数据中心体系,是训练和运行各类模型的重要基础设施之一,算力效率与成本直接影响产品体验和资本开支节奏。 原因——一是推荐系统等核心业务对吞吐、时延、功耗和内存带宽提出“组合式”要求,通用芯片很难在所有指标上同时做到最优。社交平台的内容分发需要在毫秒级完成海量候选内容的评估与排序,既依赖高并发处理能力,也需要针对特定算法结构做加速。二是行业进入“算力竞赛”,先进制程芯片的供给、价格与交付周期波动加大,单纯依赖外部供应存在不确定性。三是资本市场更关注大型科技公司的投入产出效率。生成式应用推动数据中心投资扩张,企业必须在性能提升与成本控制之间找到更可持续的平衡;自研芯片在长期摊销后有望降低单位算力成本,并通过软硬协同提升能效。四是生态与战略自主需求增强。掌握部分关键硬件能力后,企业在系统架构、编译优化、网络互联等层面会有更强的控制力,也能降低被动跟随硬件路线的风险。 影响——对Meta自身而言,如果自定义芯片能在推荐与推断环节实现规模部署,将降低对昂贵通用加速卡的边际依赖,提高数据中心资源利用率,并为新一代功能迭代预留算力空间;若深入延伸到训练端,则要面对更复杂的计算精度、互联带宽与集群稳定性要求,成败将显著影响其长期研发效率与训练成本。对产业链而言,Meta在加大采购的同时推进自研,意味着短期仍将依赖英伟达、AMD等成熟方案以保障业务增长所需的即时算力;中长期则可能推动芯片与系统厂商在定制化、互联标准、软件栈适配诸上展开更激烈竞争,加速行业从“单一通用平台”走向“多架构并存”。对全球数据中心市场而言,大型运营者纷纷自研芯片将带动电力、散热、封装、网络等配套技术升级,同时也抬高项目规划、运维体系与供应链管理的门槛。 对策——从Meta披露的信息看,其更接近“分工明确、按需选型”的组合策略:不同任务选用最匹配的芯片形态,既采购外部领先产品,也把自研作为关键补位。具体来说,模型训练等高风险、高投入领域,短期继续采用成熟商用GPU与整机方案,可降低研发不确定性;在推荐、排序等负载更明确、优化目标更可量化的环节,先用自研芯片落地更容易形成规模效应。同时,企业还需要持续投入软件栈、编译器、算子库、集群调度与故障恢复等系统工程,避免出现“硬件提升了、业务却吃不到红利”的情况。对外部合作伙伴而言,提供更灵活的定制能力、提升供货稳定性,并完善软硬协同生态,将是稳固客户关系的关键。 前景——业内普遍认为,随着模型规模与应用场景持续扩展,训练、推断与推荐等多类负载将长期并存,单一芯片形态难以覆盖全部需求,“自研+采购”将成为大型科技企业的常态选择。Meta若能在推荐系统芯片上实现稳定量产并兑现成本收益,将为其向训练端延伸积累工程经验与组织能力;但训练芯片涉及高带宽互联、分布式并行、精度体系与供应链协同等更复杂挑战,推进节奏仍取决于技术成熟度、市场需求强度以及资本开支约束。预计未来一段时间,Meta一上仍会扩大与主流芯片厂商的合作以保障即时算力供给,另一方面将通过自研逐步建立差异化能力,构建更具韧性的算力体系。
当科技巨头相继进入半导体设计,这场“造芯运动”已不只是降本增效,更关乎数字经济时代基础设施主导权的竞争。Meta的尝试既是对摩尔定律放缓的现实回应,也反映了AI产业化过程中“软硬协同”的趋势。在全球芯片产业重构的窗口期,如何在自主创新与国际合作之间把握平衡,将成为所有参与者绕不开的课题。