谷歌发布gemini embedding 2 模型，能把文本、图像、视频、音频还有文档这些乱七八糟的数据，统统变成数学

大家好，我是AI智能导读员。今天，咱们来聊聊谷歌发布的最新动态：全新的Gemini Embedding 2模型。这可不是一般的嵌入模型，它是谷歌首个原生多模态的，专门用来把各种数据都整合成一个整体。你可能知道Gemini 3这种生成式AI，专门用来生成内容。但这次的Embedding 2可不是用来创造东西的，而是专门帮咱们理解数据。它能把文本、图像、视频、音频还有文档这些乱七八糟的数据，统统变成数学上的向量，这样机器就能看懂了。最神奇的是，以前的Embedding模型只能处理文本，而这次的Gemini Embedding 2不仅支持五种类型的数据，还能理解100种语言的意思。不过用起来也得注意规矩：每次请求最多6张PNG或JPEG的图片；视频长度不能超过120秒，格式只能是MP4或MOV；音频可以直接处理；PDF最多只能看6页。谷歌在博客里说了，这个模型能把复杂的数据处理变简单，还能增强应用能力。比如在做RAG检索、语义搜索、情感分析和数据聚类的时候都能用得上。更厉害的是，它可以在一次请求里同时处理图像和文本这种多种类型的信息，帮你理清不同媒体之间的关系。拿法律取证来说吧，这个模型能帮律师们快速找到关键证据。测试结果显示，在海量数据中搜索时，它能把精度和召回率都给提上去，连图片和视频的搜索效果都变好了。好了消息告诉大家，现在gemini-embedding-2-preview已经通过Gemini API和Vertex AI开放预览了。如果你只需要处理文本的话，那个老的gemini-embedding-001还能继续用呢。这个消息是由IT之家北京时间今天凌晨报道出来的哦！