强化学习之父质疑大语言模型智能属性 业界反思AI发展方向

大语言模型的能力边界问题近期再度成为焦点。萨顿公开演讲中指出,许多广受关注的语言系统虽在写作、问答、代码生成诸上表现突出,但其核心机制仍是对既有文本规律的统计拟合——属于"预测游戏"——并不等同于能够设定目标、真实或虚拟环境中积累经验、修正行为的智能体。此判断为市场热度降温,也促使社会从关注"能说会写"转向追问"能否理解并行动"。 问题的症结在于,大语言模型常呈现"看似理解、实则缺位"的矛盾。输出流畅、结构完整,却可能忽视基本常识与物理约束。面对需要因果推理、可验证实验或连续决策的问题时,稳定性与可靠性明显不足。部分极端提问甚至会诱发自相矛盾的回答,暴露其对现实世界运行规律缺乏直接约束的弱点。 这些现象的根源首先在于学习方式的局限。纯文本或以文本为主的数据训练,擅长归纳语言模式,却难以形成"行为—反馈—再学习"的闭环。语言可以描述世界,但不等于与世界互动;文字能提供间接知识,却难以替代通过感知、试错建立的因果直觉。婴幼儿通过抓握、跌倒、观察等过程形成对重量、摩擦、空间的理解,这类经验并非阅读可以完全复现。 其次是目标导向与持续学习机制不足。人类学习往往任务驱动,且能在新经验加入时保持旧技能。相比之下,部分模型在针对新任务微调时,可能削弱既有能力,即业内常说的"遗忘"问题。萨顿团队提出的持续反向传播等思路,试图通过动态调整网络结构、部分重置参数来维持长期学习能力,在机器人控制等任务中展示出优势,也反映出"持续学习"仍是通往更高层次智能的重要门槛。 再次是缺少具身交互与可检验的世界表征。围棋程序通过自我对弈在规则清晰的环境中形成策略,具备连续反馈;机器人系统能在摔倒后调整姿态,反映了与环境的实时耦合。这些案例强调"经验生成能力"。以语言为核心的系统若缺乏感知与行动通道,往往只能在符号层面进行组合与推断,难以形成可用于规划与验证的"世界模型"。萨顿与对应的学者倡导的"世界模型"路径强调,智能体要建立对环境的内部表征,能够预测行动后果并据此做出选择,关键不在于更长文本,而在于更强的交互与自我校正。 这些差异正从学术讨论扩展到产业策略与公共治理层面。一上,过度放大语言生成能力可能导致社会对技术边界认知失真,教育、医疗、金融等高风险领域产生误用与过度依赖;另一上,围绕"规模更大是否必然更聪明"的路线分歧,也将影响资本投向与研发组织方式。企业若单纯依赖参数扩张,可能遭遇投入递增、收益递减的瓶颈;若转向多模态感知、强化学习与可验证推理体系,则需要更长期的工程积累与场景建设。 对策层面,业界普遍认为应三上形成合力:其一,强化模型与环境的交互能力,推动从文本到多模态、从静态数据到在线学习的转变,构建"感知—决策—执行—反馈"的完整闭环;其二,提升持续学习与可靠性评估机制,降低遗忘、幻觉与不一致输出的风险,建立更严格的可验证测试体系;其三,推动"世界模型"与规划能力研究,让系统不仅能生成解释,更能在可控环境中进行实验式验证,逐步从"会说"走向"会做、做得对"。 前景判断上,大语言模型仍将是通用信息处理的重要基础设施,但其角色或将从"单一中心"转向"关键组件"。未来一段时间内,更具竞争力的系统可能是融合语言能力、感知能力与行动能力的智能体:既能理解人类意图并表达推理过程,又能在虚拟或物理环境中自主探索、形成可复用的技能与策略。随着算力、数据与工程框架演进,技术路线或呈现"语言能力打底、交互经验增益、可验证机制兜底"的综合格局,真正的突破可能出现在能够稳定学习、长期记忆并自我纠错的系统上。

当技术创新进入深水区,对发展路径的理性反思显得尤为重要。这场关于人工智能本质的讨论提醒我们,技术进步不能仅追求参数的膨胀,更需要回归对认知原理的深入探索。在人机关系重塑的关键时期,保持科学理性和技术定力,或许才是通向真正智能时代的正确道路。