sarvam的ai 实验室其实是个狠角色,他们把所有的重点都放在了“从0 构建”这一概念上。

别看名字好像挺普通的,印度这家叫 Sarvam 的 AI 实验室其实是个狠角色,他们把所有的重点都放在了 “从 0 构建” 这一概念上。他们在这两天搞了个大新闻,一口气放出了两款基于 MoE 架构的大语言模型。别看这两款模型名字里带点数字——比如那个 30B-A1B 和 105B-A9B,其实特别好用。 那个小的 30B-A1B 有 16T 的数据集打底,能处理长达 32K 的上下文窗口,特别适合需要低延迟的实时应用;那个大的 105B-A9B 则能支持 128K 的超长上下文。说到最牛的地方,Sarvam 说自己的大模型在印度语言测试里已经把谷歌的 Gemini 2.5 Flash 给干趴下了。甚至在广泛的基准测试里,“大多数情况下”都比 DeepSeek R1 强,“很多时候”还能赢过 Gemini Flash。 既然是“从 0 构建”,这次他们直接把模型开源权重放在 Hugging Face 上给大家玩了,而且 API 接口和仪表盘啥的也会紧跟着上线。不过这次发布最大的亮点还得是本地语言的表现,看来 Sarvam 真的是想做一个懂印度的 AI 啊!