谷歌那边把Gemini 3 Deep Think给升级了,这回这是个专门给搞科学、做研究还有工程的人用的“推理模式”。据说这是为了给智能发展推一把力,是开发人员和各路科学家一块儿弄出来的。主要就是想搞定那种没清楚边界、也未必有唯一答案的数据乱或者不全的难题。 这一版的范围明显大了不少。从2月12日开始,谷歌AI Ultra的订阅用户就能在Gemini应用里用了。而且谷歌破天荒地把Deep Think通过API扔给了一些研究人员和企业,搞了个早期访问计划,让大家申请试用。 性能方面,谷歌重点提了一下数学、算法和编程这些硬核推理任务。Deep Think在那个所谓的终极人类考试Humanity's Last Exam上拿了48.4%的分;在ARC-AGI-2这个基准测试上干到了84.6%,而且是ARC Prize Foundation确认过的成绩;Codeforces竞赛编程基准上它拿了3455的Elo值;这一套下来,在2025年的IMO也就是国际数学奥赛里也能拿到金牌水平。 除了数学编程,化学和物理这些科学领域它也没落下。官方说这一套在2025年的国际物理奥赛和化学奥赛笔试里都拿了金牌结果;在做理论物理相关的CMT-Benchmark上也得了50.5%的分数。 谷歌表示他们不光盯着这些考试成绩看,还想着要推动实际应用,比如帮科研人员解读复杂数据、给工程师做物理系统建模。以后会持续把Deep Think送到研究人员和实践者最需要的地方去,而这次通过API开放早期访问就被视为迈出的重要一步。