小米大模型：mimo-v2-pro和omni

3月19日那天，小米大模型团队公布了他们的两款新成果。首先是MiMo-V2-Pro和Omni，还有个语音合成的TTS。就像记者陶凤和王天逸报道的那样，这次发布会主要是给Agent时代准备的。Xiaomi MiMo-V2-Pro是针对现实中高强度工作的旗舰底座，总参数超过1T，有42亿个激活参数。它用了新的混合注意力架构，能处理超过100万字符的超长文本。这个模型能把Coding和Claw这些动作做得很好，所以在Artificial Analysis排行榜上排全球第八，国内第二。MiMo-V2-Omni则是全模态底座，能处理复杂的多模态交互和执行任务。小米给它做了个融合文本、视觉和语音的底座架构，把感知和行动紧紧绑在一起。这就打破了以前模型只懂理解、不会操作的问题。MiMo-V2-Omni还支持GUI操作和工具调用，所以接入各种Agent框架就很容易了。还有MiMo-V2-TTS是语音合成的大模型。小米用自己研发的Audio Tokenizer还有多码本联合建模架构训练出来的。经过大量数据的预训练和强化学习后，这个模型能控制好各种风格。它可以在一句话里调整语气和情绪，唱歌时也能准确表现音高和节奏。所以现在能实现更自然的语音表达。