蚂蚁集团把全模态大模型ming-flash-omni 2.0给发布了,还给它开了源

蚂蚁集团把全模态大模型Ming-Flash-Omni 2.0给发布了,还给它开了源。这个模型做得不错,把语音、音效和音乐弄在一起生成,能让人精细控制这些东西。蚂蚁集团是IT界的一家公司,它这次搞出的模型在视觉识别、音频生成还有图像编辑方面都有了进步。蚂蚁百灵在Ling Studio平台上给了大家体验的机会。还有Hugging Face也把这个模型和代码放上去了。 AI导读过这个消息,说这个模型在推理效率上领先别的公司。它在各种公开的测试里表现都不错。介绍说它是业界第一个能统一处理所有音频的模型,能在同一条音轨里搞出语音、环境声还有音乐。你只要跟它下指令,就能调整音色、语速、音量和方言。这个模型的推理帧率只有3.1Hz,特别快。这样一来,分钟级的长音频也能实时高质量地生成出来。 大家普遍觉得多模态大模型以后会越来越统一,不同的任务可以互相配合得更好。但实际上,全模态模型很难在所有方面都很强。有些开源模型在某些单项能力上不如专用模型那么厉害。蚂蚁集团在这个方向上一直坚持了好几年,Ming-Omni系列就是在这个背景下慢慢发展起来的。早期版本是搭好一个底座,中期版本是看看规模增长带来的效果,现在的2.0版本是用更大的数据和系统训练优化了一下。现在它把核心能力都放出来了,让大家能重复利用。 这次开源的目的是为了让开发端到端多模态应用的人有个统一的入口。用户现在可以在Hugging Face上找到这个模型和代码,也能在蚂蚁百灵的Ling Studio里体验和调用它。