gemini 3.1 flash live是啥东西?它能干啥?

今天呢,Google就发布了Gemini 3.1 Flash Live,这玩意儿就是为了让语音AI听起来更自然、更靠谱。我们这次在实时对话这块下了功夫,这是目前为止质量最高的音频和语音模型了。给新一代的语音优先AI提供了必需的速度和自然节奏,这样不管是开发者、企业还是咱们普通用户,用起来都更直观。 这个3.1 Flash Live已经在Google的好几个产品里亮相了。开发者可以直接去Google AI Studio的Gemini Live API里去预览玩玩。企业呢,可以在Gemini Enterprise for Customer Experience里头用。而大家平时用Search Live和Gemini Live的时候也能直接感受到它的存在。 开发者这次可就赚大了,模型给了强大的推理和任务执行能力。为了让开发者和企业能更放心地用语音优先的智能体去搞定大规模的复杂任务,我们把3.1 Flash Live的整体质量给大大提升了一下。在那个专门测多步骤函数调用的ComplexFuncBench Audio基准测试里,这模型以90.8%的高分把自家的旧模型给甩在了后面。在Scale AI的Audio MultiChallenge上它也不错,只要把“思考”模式一开就能拿下36.1%的领先分数。这两个测试都挺折腾人的,专门看你在真实世界嘈杂环境里、有人经常插话或者犹豫的时候还能不能好好听指令、做好长程推理。 还有就是这个模型的音调理解能力变强了很多。你看它在Gemini Enterprise for Customer Experience里表现多好,比之前的2.5 Flash Native Audio在听节奏、音调这种细微差别的时候要强不少。最重要的是它能根据你的情绪来调整说话的态度,要是你在电话里听起来有点沮丧或者迷糊了,它的回应也会相应地变得更温和或者更耐心。 有了这个新玩意儿以后,你就可以轻松地造出来那种在噪音很大的环境里也能干活的语音智能体。而且编程创作的时候你也能用语音来操作,改动起来也特别快。Verizon、LiveKit还有The Home Depot这些大公司都试了试3.1 Flash Live,反馈都特别好,都说这次对话更自然了。 普通老百姓要想用上也简单。在Gemini Live还有Search Live里直接就能试。不管是问点日常的小问题还是想深入聊会儿天,这模型都能给出有用的回答。在速度上它比以前更快了一点,而且能跟着你的思路走得更长时间——比起之前能多两倍左右吧——这么一来你在大脑里天马行空乱转的时候也不会觉得卡顿。 顺带提一句这模型自带多国语言的本事,这就把Search Live这周给全球用户用起来了。到了现在已经超过200个国家和地区的朋友能选自己喜欢的语言来跟搜索工具实时聊天了。 最后关于版权保护的事儿说一下吧。所有这3.1 Flash Live生成的音频都已经被SynthID水印给标记好了。这个水印藏得特别深不显眼直接织进了音频里,万一出现假消息也能被它识别出来制止一下传播。 赶紧去试试它到底有多自然和靠谱吧!我也很期待大家能拿出点好玩的东西来!Q&A Q1:Gemini 3.1 Flash Live是啥东西?它能干啥? A:Gemini 3.1 Flash Live就是Google刚推出来的顶级音频语音模型了。它最大的能耐就是实时聊天又快又顺溜。能给开发者和普通人都带去更直观的体验。 Q2:这玩意儿在比赛里表现咋样? A:在那个ComplexFuncBench Audio的比赛里头它赢了旧版本90.8%。在Scale AI的那个Audio MultiChallenge测试里,它一开“思考”模式又领先了36.1%。这两个成绩都说明它在听复杂指令、做长推理这些事儿上很强。 Q3:普通人咋用啊? A:普通人打开Search Live或者Gemini Live就能玩了。它回复快得很,还能跟上你聊很久的天——比之前能多聊两倍的时间呢。而且支持的国家也多了200个以上的人都能用自己的母语聊起来了。