上海发布全国首个金融大模型评测体系为行业智能化转型提供权威标尺

随着人工智能技术在金融领域的深度融合，如何科学评估大模型在金融场景中的实际应用能力，已成为制约行业发展的关键瓶颈。

日前，2025金融大模型评测体系发布会在上海举行，标志着我国金融科技评估标准化建设迈出重要步伐。

长期以来，金融机构在选择和应用大模型时面临评测维度碎片化、标准不统一等问题。

传统评测方法往往局限于单一技术指标，难以全面反映模型在复杂金融业务场景中的真实表现。

这种评估体系的缺失，不仅增加了金融机构的选型成本，也制约了人工智能技术在金融领域的规模化应用。

此次发布的评测体系由上海人工智能实验室、库帕思联合同济大学、蚂蚁集团、中国工商银行、商汤科技等权威机构共同构建。

体系在标准引领、数据驱动、安全可信与生态共建四个维度实现全面升级，首次建立覆盖金融全场景的评测基线。

在技术创新方面，该体系展现出显著的专业优势。

评测数据库汇集约3.6万条高质量样本，涵盖4个公开数据集和22个自建数据集，确保了评测的全面性和权威性。

为解决大模型评测中的"刷题"现象和结果随机性问题，体系创新采用循环选项打乱机制和多样化提示词技术，并专门研发"金融裁判大模型"，实现评测全流程自动化和标准化。

市委金融办副主任葛平表示，该体系作为全国首个以金融业务为中心的评价标准，为金融机构提供了科学选型和能力对标的重要工具。

通过统一的评估框架，金融机构能够更精准地识别大模型在投研分析、风险控制、客户服务等核心业务环节的适用性，推动技术与业务的深度融合。

同步发布的《金融大模型应用评测报告（2025）》和《金融大模型评测数据集（2025）》，进一步丰富了评测体系的实用价值。

这些配套成果直接回应了金融垂直领域的应用需求，为机构实现降本增效、加速模型规模化部署提供了有力支撑。

从产业发展角度看，该评测体系的建立将产生深远影响。

一方面，统一的评估标准有助于规范市场秩序，提升金融科技产品质量；另一方面，权威的评测结果将为监管部门制定相关政策提供科学依据，促进金融创新与风险防控的平衡发展。

业内专家认为，随着评测体系的推广应用，将有效推动金融机构加快数字化转型步伐。

通过科学的能力评估，金融机构可以更好地配置技术资源，优化业务流程，提升服务效率和用户体验。

同时，评测标准的建立也将激励技术供应商持续优化产品性能，推动整个行业技术水平的提升。

金融科技的发展从来不是“速度竞赛”，更是“质量与治理的长期工程”。

以评测体系和基准为牵引，把能力边界说清、把风险底线划实、把应用成效量化，才能让创新在规则之内释放更大价值。

面向未来，只有坚持标准先行、数据为基、安全护航、协同共建，金融智能化才能在稳健可控中实现更高水平的普惠与效率。

上海发布全国首个金融大模型评测体系 为行业智能化转型提供权威标尺