强化学习之父质疑大语言模型智能属性业界反思AI发展方向

大语言模型的能力边界问题近期再度成为焦点。萨顿公开演讲中指出，许多广受关注的语言系统虽在写作、问答、代码生成诸上表现突出，但其核心机制仍是对既有文本规律的统计拟合——属于"预测游戏"——并不等同于能够设定目标、真实或虚拟环境中积累经验、修正行为的智能体。此判断为市场热度降温，也促使社会从关注"能说会写"转向追问"能否理解并行动"。问题的症结在于，大语言模型常呈现"看似理解、实则缺位"的矛盾。输出流畅、结构完整，却可能忽视基本常识与物理约束。面对需要因果推理、可验证实验或连续决策的问题时，稳定性与可靠性明显不足。部分极端提问甚至会诱发自相矛盾的回答，暴露其对现实世界运行规律缺乏直接约束的弱点。这些现象的根源首先在于学习方式的局限。纯文本或以文本为主的数据训练，擅长归纳语言模式，却难以形成"行为—反馈—再学习"的闭环。语言可以描述世界，但不等于与世界互动；文字能提供间接知识，却难以替代通过感知、试错建立的因果直觉。婴幼儿通过抓握、跌倒、观察等过程形成对重量、摩擦、空间的理解，这类经验并非阅读可以完全复现。其次是目标导向与持续学习机制不足。人类学习往往任务驱动，且能在新经验加入时保持旧技能。相比之下，部分模型在针对新任务微调时，可能削弱既有能力，即业内常说的"遗忘"问题。萨顿团队提出的持续反向传播等思路，试图通过动态调整网络结构、部分重置参数来维持长期学习能力，在机器人控制等任务中展示出优势，也反映出"持续学习"仍是通往更高层次智能的重要门槛。再次是缺少具身交互与可检验的世界表征。围棋程序通过自我对弈在规则清晰的环境中形成策略，具备连续反馈；机器人系统能在摔倒后调整姿态，反映了与环境的实时耦合。这些案例强调"经验生成能力"。以语言为核心的系统若缺乏感知与行动通道，往往只能在符号层面进行组合与推断，难以形成可用于规划与验证的"世界模型"。萨顿与对应的学者倡导的"世界模型"路径强调，智能体要建立对环境的内部表征，能够预测行动后果并据此做出选择，关键不在于更长文本，而在于更强的交互与自我校正。这些差异正从学术讨论扩展到产业策略与公共治理层面。一上，过度放大语言生成能力可能导致社会对技术边界认知失真，教育、医疗、金融等高风险领域产生误用与过度依赖；另一上，围绕"规模更大是否必然更聪明"的路线分歧，也将影响资本投向与研发组织方式。企业若单纯依赖参数扩张，可能遭遇投入递增、收益递减的瓶颈；若转向多模态感知、强化学习与可验证推理体系，则需要更长期的工程积累与场景建设。对策层面，业界普遍认为应三上形成合力：其一，强化模型与环境的交互能力，推动从文本到多模态、从静态数据到在线学习的转变，构建"感知—决策—执行—反馈"的完整闭环；其二，提升持续学习与可靠性评估机制，降低遗忘、幻觉与不一致输出的风险，建立更严格的可验证测试体系；其三，推动"世界模型"与规划能力研究，让系统不仅能生成解释，更能在可控环境中进行实验式验证，逐步从"会说"走向"会做、做得对"。前景判断上，大语言模型仍将是通用信息处理的重要基础设施，但其角色或将从"单一中心"转向"关键组件"。未来一段时间内，更具竞争力的系统可能是融合语言能力、感知能力与行动能力的智能体：既能理解人类意图并表达推理过程，又能在虚拟或物理环境中自主探索、形成可复用的技能与策略。随着算力、数据与工程框架演进，技术路线或呈现"语言能力打底、交互经验增益、可验证机制兜底"的综合格局，真正的突破可能出现在能够稳定学习、长期记忆并自我纠错的系统上。

当技术创新进入深水区，对发展路径的理性反思显得尤为重要。这场关于人工智能本质的讨论提醒我们，技术进步不能仅追求参数的膨胀，更需要回归对认知原理的深入探索。在人机关系重塑的关键时期，保持科学理性和技术定力，或许才是通向真正智能时代的正确道路。

强化学习之父质疑大语言模型智能属性 业界反思AI发展方向

强化学习之父质疑大语言模型智能属性业界反思AI发展方向