小米自研mimo-v2-tts 语言合成模型

3月19日,小米搞了个大动作,把自研的MiMo-V2-TTS语言合成大模型给推了出来。这家伙是个全能选手,不光能说会道、能演,关键是还会唱。这套系统搭建在小米自家的Audio Tokenizer上面,用的是多码本语音和文本联调的新路子,还给喂了上亿小时的语音数据,把它炼成了个高手。 你要是想用这个模型,能搞出很高级的控制效果,既可以设定整体的说话风格,也能微调句子里的小情绪,说起来跟真人一样自然。在唱歌这一块儿,音准和节奏都能抓得稳稳的。小米为了把这种表现力彻底榨干,还给它喂了多维度强化学习的大餐,既稳又有劲儿。 最有意思的是这个模型特别懂文本,它把书面语和口语的关系摸透了,连标点符号、语气词这种小细节都能自动翻译成人话,根本不用你费劲儿去标注。除了普通话,它还能捏各种方言的声音,东北话、四川话、河南话、粤语、台湾腔都能说,想怎么演就怎么演。 小米表示这还没完呢。以后除了覆盖更多外语,还要跟MiMo-V2-Omni这个大模型深度结合。到时候那个Agent不光看得懂世界,还能张口讲给你听。