小米自研mimo-v2-tts 语言合成模型

3月19日，小米搞了个大动作，把自研的MiMo-V2-TTS语言合成大模型给推了出来。这家伙是个全能选手，不光能说会道、能演，关键是还会唱。这套系统搭建在小米自家的Audio Tokenizer上面，用的是多码本语音和文本联调的新路子，还给喂了上亿小时的语音数据，把它炼成了个高手。你要是想用这个模型，能搞出很高级的控制效果，既可以设定整体的说话风格，也能微调句子里的小情绪，说起来跟真人一样自然。在唱歌这一块儿，音准和节奏都能抓得稳稳的。小米为了把这种表现力彻底榨干，还给它喂了多维度强化学习的大餐，既稳又有劲儿。最有意思的是这个模型特别懂文本，它把书面语和口语的关系摸透了，连标点符号、语气词这种小细节都能自动翻译成人话，根本不用你费劲儿去标注。除了普通话，它还能捏各种方言的声音，东北话、四川话、河南话、粤语、台湾腔都能说，想怎么演就怎么演。小米表示这还没完呢。以后除了覆盖更多外语，还要跟MiMo-V2-Omni这个大模型深度结合。到时候那个Agent不光看得懂世界，还能张口讲给你听。