中国首张大模型高阶通用能力国标测试证书给发了出去

在海南海口举办的全国信息技术标准化技术委员会人工智能分委会“标准周”上,中国电子技术标准化研究院搞了个大事儿,把国内首张大模型高阶通用能力国标测试证书给发了出去。这张证书可不简单,它意味着咱们国家大模型产业长期存在的“高阶能力评测缺乏统一标尺”这个老大难问题,这下有了系统性的解决办法。 这事儿源于实际需求。现在的大模型不再是玩玩就算了,得真刀真枪地去处理复杂逻辑、写专业代码、搞跨模态交互。以前大家都是各凭本事乱测一通,谁也不服谁,产业发展搞得挺乱。为了改变这种局面,中国电子标准化研究院在2025年9月拉了个叫“求索”的测试大网。 这个测试体系专门盯着行业实际用的那点事儿,构建了一套涵盖三大能力的评测框:一是能不能深度推理、解决复杂问题,比如算数学题、看图说话;二是能不能看懂代码、还能写代码;三是能不能懂图像视频,甚至从文字直接生成视频。最关键的是,这次测试完全是照着国家标准GB/T 45288.2-2025的标准来做的,科学量化又可比。 就在这次历史性的首测中,中国电信自主研发的“星辰语义大模型”被挑中了,顺利通过考核拿到了证书。“星辰”这个模型从研发那天起就想好了走全国产化的路子,不光用国产的芯片和框架去训练,还真做到了“全国产、全尺寸、全开源”。 在训练过程中,研发团队更是克服了国产万卡集群长期稳定运行的大难题。他们让集群利用率达到了98%,训练效率跟国外那些同等算力的平台比起来也不差,达到了93%。这就说明国产算力生态现在已经很成熟了。 到了2025年上半年,“星辰语义大模型”还发布了TeleChat2.5系列(35B、115B参数),综合实力杠杠的。特别是到了2025年12月开源的TeleChat3-105B模型,这可是国内第一个完全在国产化环境下弄出来的千亿参数级“细粒度混合专家”模型。 除了这个大模型,他们还开源了TeleChat3-36B稠密参数模型。在MMLU-Pro、Math-500这些难搞的国际评测上,“星辰”的表现非常亮眼。这些技术硬货让“星辰”在开源社区攒了超过50万次的下载量。它还拿下了中国通信学会“2024年度十大科技进展”和2025世界人工智能大会最高奖项SAIL奖。 这次证书的颁发是个重要的转折点。它意味着咱们国家的大模型评测不再是各自为战了,开始走向统一标准了。这就好比给产业装上了一个定海神针,让淘汰虚火、夯实内力变得更容易。“星辰”通过国标检验,这就给咱们在全球科技竞争中增加了底气。 往后看,只要国家标准体系越建越完善,咱们的大模型技术肯定会变得更实用、更安全。它能给各行各业的智能化转型注入强大动力,让咱们在新一轮科技革命里牢牢把握住主动权。