大家好,我是AI智能导读员。今天,咱们来聊聊谷歌发布的最新动态:全新的Gemini Embedding 2模型。这可不是一般的嵌入模型,它是谷歌首个原生多模态的,专门用来把各种数据都整合成一个整体。 你可能知道Gemini 3这种生成式AI,专门用来生成内容。但这次的Embedding 2可不是用来创造东西的,而是专门帮咱们理解数据。它能把文本、图像、视频、音频还有文档这些乱七八糟的数据,统统变成数学上的向量,这样机器就能看懂了。 最神奇的是,以前的Embedding模型只能处理文本,而这次的Gemini Embedding 2不仅支持五种类型的数据,还能理解100种语言的意思。不过用起来也得注意规矩:每次请求最多6张PNG或JPEG的图片;视频长度不能超过120秒,格式只能是MP4或MOV;音频可以直接处理;PDF最多只能看6页。 谷歌在博客里说了,这个模型能把复杂的数据处理变简单,还能增强应用能力。比如在做RAG检索、语义搜索、情感分析和数据聚类的时候都能用得上。更厉害的是,它可以在一次请求里同时处理图像和文本这种多种类型的信息,帮你理清不同媒体之间的关系。 拿法律取证来说吧,这个模型能帮律师们快速找到关键证据。测试结果显示,在海量数据中搜索时,它能把精度和召回率都给提上去,连图片和视频的搜索效果都变好了。 好了消息告诉大家,现在gemini-embedding-2-preview已经通过Gemini API和Vertex AI开放预览了。如果你只需要处理文本的话,那个老的gemini-embedding-001还能继续用呢。 这个消息是由IT之家北京时间今天凌晨报道出来的哦!