上海发布全国首个金融大模型评测体系 为行业智能化转型提供权威标尺

随着人工智能技术在金融领域的深度融合,如何科学评估大模型在金融场景中的实际应用能力,已成为制约行业发展的关键瓶颈。

日前,2025金融大模型评测体系发布会在上海举行,标志着我国金融科技评估标准化建设迈出重要步伐。

长期以来,金融机构在选择和应用大模型时面临评测维度碎片化、标准不统一等问题。

传统评测方法往往局限于单一技术指标,难以全面反映模型在复杂金融业务场景中的真实表现。

这种评估体系的缺失,不仅增加了金融机构的选型成本,也制约了人工智能技术在金融领域的规模化应用。

此次发布的评测体系由上海人工智能实验室、库帕思联合同济大学、蚂蚁集团、中国工商银行、商汤科技等权威机构共同构建。

体系在标准引领、数据驱动、安全可信与生态共建四个维度实现全面升级,首次建立覆盖金融全场景的评测基线。

在技术创新方面,该体系展现出显著的专业优势。

评测数据库汇集约3.6万条高质量样本,涵盖4个公开数据集和22个自建数据集,确保了评测的全面性和权威性。

为解决大模型评测中的"刷题"现象和结果随机性问题,体系创新采用循环选项打乱机制和多样化提示词技术,并专门研发"金融裁判大模型",实现评测全流程自动化和标准化。

市委金融办副主任葛平表示,该体系作为全国首个以金融业务为中心的评价标准,为金融机构提供了科学选型和能力对标的重要工具。

通过统一的评估框架,金融机构能够更精准地识别大模型在投研分析、风险控制、客户服务等核心业务环节的适用性,推动技术与业务的深度融合。

同步发布的《金融大模型应用评测报告(2025)》和《金融大模型评测数据集(2025)》,进一步丰富了评测体系的实用价值。

这些配套成果直接回应了金融垂直领域的应用需求,为机构实现降本增效、加速模型规模化部署提供了有力支撑。

从产业发展角度看,该评测体系的建立将产生深远影响。

一方面,统一的评估标准有助于规范市场秩序,提升金融科技产品质量;另一方面,权威的评测结果将为监管部门制定相关政策提供科学依据,促进金融创新与风险防控的平衡发展。

业内专家认为,随着评测体系的推广应用,将有效推动金融机构加快数字化转型步伐。

通过科学的能力评估,金融机构可以更好地配置技术资源,优化业务流程,提升服务效率和用户体验。

同时,评测标准的建立也将激励技术供应商持续优化产品性能,推动整个行业技术水平的提升。

金融科技的发展从来不是“速度竞赛”,更是“质量与治理的长期工程”。

以评测体系和基准为牵引,把能力边界说清、把风险底线划实、把应用成效量化,才能让创新在规则之内释放更大价值。

面向未来,只有坚持标准先行、数据为基、安全护航、协同共建,金融智能化才能在稳健可控中实现更高水平的普惠与效率。