北京大学建立中式审美评估体系为大语言模型“把脉问诊”

问题——随着大模型能力快速提升，其图像理解与生成各上的表现日益受到关注，但“能不能读懂中国画、理解中式审美”仍缺少可验证、可比较的评测工具。长期以来，涉及的能力更多停留演示层面：模型能够描述画面元素，却不一定把握作品背后的时代语境、笔墨语言与精神气象，导致对中国传统艺术的理解容易出现概念套用、背景错置、文化常识偏差等问题。如何以相对客观的方式衡量模型的中式审美能力，并据此指导改进，成为摆在学界与产业界面前的现实课题。原因——评测缺口的形成，与既有通用评测体系的框架来源和研究路径密切相关。当前主流评测指标多基于西方艺术理论、现代视觉描述范式与英文语料环境，更擅长考察形式要素识别、风格标签匹配等能力；而中国传统艺术强调“以形写神”、重视“气韵生动”与“意境”营造，其审美标准与知识结构体现为体系化、历史性与跨文本的特征，需要将作品、题跋、流派传承、文人趣味、社会文化背景等信息一并纳入理解。换言之，缺的不是作品资源本身，而是将传统美学概念转化为可操作、可复核的评价维度，并建立稳定的一致性评审机制。影响——“智镜”平台的推进，为弥补上述短板提供了可落地的路径。据介绍，平台由北京大学艺术学院联合计算艺术实验室于2025年3月启动建设，其核心思路是以“考试”方式实现可对照的评价：平台汇聚超过1.8万张中国古代书画图像，并为每件作品配套创作背景、风格流派、文化寓意、评论文献等信息，形成结构化“试题库”；大模型对作品作出解读后，由人类专家从作品信息准确性、构图分析、笔墨技法、意境解读等维度给出评分与评语，进而梳理模型在审美范式理解、历史背景把握、文化知识运用等上的典型错误与薄弱环节。此举一方面有助于提升评测透明度与可比性，减少“看起来懂”的主观印象；另一方面也为研发提供明确的改进坐标，使模型优化从“泛化提升”转向“面向具体能力的迭代”。对策——机制设计上，平台强调以专业评审来保障评价的学术性与稳定性。目前，“智镜”平台面向受邀专家开放，已有来自清华大学、中央美术学院、中国美术学院等高校与研究机构的70余名评审专家，以及中国古代美术史等方向的学者和博士生参与多轮阅卷。通过持续的多轮评审，平台可逐步形成较为稳健的评分尺度与共识标准，并在数据积累中提炼出可复用的评测规则与误差类型谱系。，平台计划于今年5月向社会公众开放参与阅卷，意味着在专家把关基础上，继续引入公众审美体验与文化理解的反馈通道。业内人士认为，这种“专家—公众”相结合的模式，有助于在学术标准与社会感受之间建立更有效的连接，使评测既具专业深度，也更贴近真实应用场景。前景——面向未来，审美评测的价值不仅在于“评出高低”，更在于促进技术与文化的双向增益。随着大模型加速进入教育、文旅、传播、内容生产等领域，其对传统文化的理解质量将直接影响公共文化表达与知识传播的准确性。以中国画为切入点，构建基于本土美学传统的评测基准，有望推动相关技术在中文语境与中国文化场景中更稳健地落地。平台上表示，后续将联合高校、科研机构及行业力量，定期发布审美评测结果，并在现有图像评测基础上逐步引入文本、音乐、视频等多模态内容，考察模型在不同媒介中的审美理解能力。可以预期，随着评测体系完善与多模态扩展，审美能力将从“可感知的体验”进一步转化为“可检验的指标”，进而推动模型在文化知识、艺术表达与价值把握上实现更高质量的发展。

"智镜"平台的探索为技术本土化提供了范例。它表明传统文化的现代表达需要建立自主的评价体系，也展现了高校在文化科技创新中的关键作用。这个经验对人文与技术交叉领域具有重要启示意义。

北京大学建立中式审美评估体系 为大语言模型“把脉问诊”

北京大学建立中式审美评估体系为大语言模型“把脉问诊”