前阿里千问的大佬林俊旸离职尘埃落定：为千问，我只能做这么多了

前阿里千问的大佬林俊旸最近讲了个挺有意思的事儿，说现在AI大模型竞争的重点变了。以前大家都在使劲儿琢磨推理能力，比如搞什么 Reasoning Thinking，现在风口转向了智能体思维，也就是 Agentic Thinking。咱们就拿 3 月 27 日他离职发的那篇长文来看，这位前技术负责人复盘了以 OpenAI o1 和 DeepSeek-R1 为代表的第一波推理热潮，指出这意味着行业正式进入了强化学习（RL）大规模训练的新阶段。以前大家就是把预训练搞得越来越大，现在就是得把强化学习这块儿练扎实。特别是像数学和写代码这种有标准答案的领域，就成了检验模型对不对的试金石。不过林俊旸也在文里吐槽了一下行业里的一个大难题——想把思考模式和指令模式揉到一块儿真的很难落地。他爆料说，他们千问团队本来想用 Qwen3 搞个支持混合模式的系统，结果在实操中发现个大问题：指令模型图的是简单好用、反应快；思考模型为了搞清楚逻辑，动不动就得消耗好几个 Token 来推演复杂过程。这两个路子在数据分布和做事的目标上完全不对付。要是随便合在一起，数据筛选不到位，最后两边表现都很平庸。因为商业客户更看重干活快、成本低，Qwen 在 2507 版本里干脆把 30B 和 235B 的指令版本跟思考版本拆分开来了。反观其他家像 Anthropic 和 DeepSeek 这些厂商，还在费劲巴拉地琢磨怎么把推理和调用工具这两件事统一到一个架构里去。关于未来的路怎么走，林俊旸说得很清楚：单纯拉长模型在脑子里的推演轨迹已经过时了。未来能站得住脚的一定是那种能在跟环境不断交互中随时调整计划的智能体思考。这就要求技术栈得彻底改一改。以前的训练和推理耦合得太死，以后得更纯粹地解耦开来。随着大模型有了搜索、代码执行等工具权限，防奖励作弊（Reward Hacking）的事儿就变得特别危险。以后行业真正的护城河肯定不是算法本身有多厉害，而是看你怎么设计高质量的环境、制定防作弊协议、还有多智能体怎么协同配合这些系统工程能力强不强。相关新闻也多有报道，比如《阿里最年轻 P10 林俊旸离职尘埃落定：为千问，我只能做这么多了》、《阿里批准千问技术负责人林俊旸辞职，将成立基础模型支持小组》、《阿里千问大模型核心掌舵者林俊旸宣布离职，高层出面挽留》。