学者提出"起源挑战"测试方案 探索人工智能真实智能水平的新维度

问题——如何判断机器是否具备可与人类相提并论的智能,一直是科技发展与社会治理共同面对的基础议题;长期以来——图灵测试以对话为主要形式——强调“不可区分性”:若测试者无法分辨对话对象是人还是机器,是否就可认定其具备智能。然而,随着涉及的系统在语言生成、知识检索与对话策略上的快速提升,单一对话场景越来越难作为可靠标尺:它既可能被“对话技巧”和语料记忆放大,也容易受测试者提问类型、深度与表达方式影响,结论在不同情境间出现偏差。 原因——王献华在演讲中将此局限概括为“镜像效应”:对话式测试更像映照提问者的设定与能力,而非直接触及被测对象是否具备独立的理解、协作与创造能力。其逻辑在于,对话是一种较为受控的交互形式,信息边界由测试者设定,评价维度也常集中在语言流畅度、应答速度与表面一致性上。,人类智能并非在孤立环境中生成,而是在长期社会互动中形成:个体在合作、竞争、分工与传承中,逐步建立规则、符号与制度。以文字发明为例,它不仅是记录工具,也是社会组织能力的产物,背后包含共同体需求、共识形成、符号约定与代际延续等机制。因此,将智能检验从“单轮对话”扩展到“社会性生成过程”,可作为对既有测试框架的重要补充。 影响——基于这一背景,王献华提出名为“Nigiro Challenge”的测试设想。“Nigiro”由“Origin(起源)”反写而来,意在以逆向视角追问:不从语言输出的表面效果入手,而从“文明能力”的生成链条出发,是否能更接近智能的核心。他提出的关键考察点是“社会性虚拟造字测试”:在一个由多个智能体构成的虚拟社会中,观察它们能否在持续互动中,围绕共同目标形成稳定的符号体系,并将其扩展为可传递、可组合、可纠错的“文字”或类文字系统。该设想将评价重点从“回答是否像人”转向“是否能共同创造并维持一套符号制度”,以检验其抽象建模、共识达成、规则约束与协作演化能力。 对策——从测评方法论看,这一路径提示未来智能评估可继续走向多维与可追溯:一是强调过程证据,关注符号体系从萌芽到稳定的演化轨迹,而非只看单次输出;二是引入社会变量,考察在资源约束、任务分工、冲突协调等条件下的协作能力;三是设置可复现实验框架,明确环境规则、奖励机制、交流通道与评判指标,避免“只看结果、不问来路”;四是建立分层标准,将“能否产生符号”“能否形成语法与组合规则”“能否跨情境迁移”“能否代际传承与纠错”设为递进指标,以减少争议。对公共治理而言,更清晰的测评体系也有助于厘清边界:哪些能力属于工具性增强,哪些更接近主体性智能,从而为应用规范、风险评估与责任划分提供依据。 前景——在学界与产业界对通用智能的讨论持续升温之际,“虚拟造字”设想的意义,在于把“文明能力”纳入观察窗口。文字并非人类文明的唯一标志,但往往与组织、记忆、制度与知识积累相伴而生。若一个智能体群体在没有外部直接灌输既有文字体系的情况下,能通过互动自发形成并稳定使用符号系统,意味着其具备一定程度的抽象表达、共同体协作与规则自洽能力。与此同时,这类测试仍面临关键问题:虚拟环境能否代表真实世界的复杂性,符号系统的“原创性”如何界定,外部训练数据与预设机制会如何影响结果,以及如何防止“为通过测试而优化”的策略性行为。未来若要使其成为更具公信力的评估工具,还需跨学科完善指标体系与实验设计,并在透明、可解释、可复现的框架下开展验证。

当人工智能研究从技术层面延伸到文明维度,“Nigiro Challenge”不仅是在重估机器智能,也是在追问人类文明的生成机制。在科技与人文的交汇处,这项研究或将促使我们重新思考智能的起源、文明的边界以及人机关系的走向。正如青铜器铭刻着华夏文明的密码,未来某天,AI自发形成的符号系统或许会成为智能新纪元的“罗塞塔石碑”。