谷歌gemini 3.1 pro 拿到了77.1% 的高分,这成绩简直是把大家的下巴都惊掉了

到了2026年,谷歌和OpenAI两家的工程师在硅谷实验室里掐得是热火朝天。那时候,谷歌的Gemini 3.1 Pro突然在ARC-AGI-2测试里拿到了77.1%的高分,这成绩简直是把大家的下巴都惊掉了。虽然GPT-5.2是给OpenAI挣面儿的型号,但这回明显在纯推理这块儿输给了对手。比如Humanity’s Last Exam这个难题,Gemini 3.1 Pro考了44.4%,比对手高了整整12个百分点。要说这进步有多大,还得看前代数据——以前可只有31.1%。 在实际干活的场景里,Gemini 3.1 Pro也没让人失望。它在编程能力测试LiveCodeBenchPro里拿到了2887分,直接把对手的2393分甩在身后。至于代码修复这类工程活儿,它更是拿出了80.6%的好成绩,和GPT-5.2的实力差不多。在Agent任务里更是厉害,APEX-Agents测试拿了33.5%,BrowseComp搜索准确率更是飙到了85.9%,这简直就是未来AI助理的雏形。 最让人没想到的是谷歌的定价策略。虽然性能翻倍了,但Gemini 3.1 Pro的价格还保持在2美元/百万token不变。反过来看看GPT-5.2呢,每次输入就得花掉1.25美元。这么一来,Gemini 3.1 Pro用近乎一半的价格就实现了双倍的性能,性价比高得吓人。谷歌显然是想把AI做成像水电一样的基础设施,想把开发者都吸引过来用自家的模型,好筑起一道生态壁垒。 其实这场技术比拼还挺有意思的。GPT-5.2在搞创作的时候细腻得很,而Gemini 3.1 Pro在处理逻辑时特别强硬。就连Claude这家伙在长文本处理上的独特优势也为以后智能的发展留了条路。最后赢家到底是谁?说不准了。因为现在的AI竞争早就不是比谁一家强了,而是一个全方位的混战。真的赢家可能不是哪个特定的模型,而是咱们人类自己。毕竟只有能灵活调动不同工具的人类,才是未来真正的智能主角。