3月9日,腾讯携手清华搞了个大新闻,把音乐创作的界给彻底掀翻了。他们搞出来的SongGeneration 2不仅是个技术产品,更是AI音乐这行当里的一次大突破。之前大家总觉得AI做的歌太塑料、没层次感,这回这个模型直接把这些问题都解决了。就像有个音乐家说的,音乐是心灵的声音,AI就把这声音的未来给捧起来了。 SongGeneration 2那叫一个强,把过去的三个大问题全给摆平了。以前AI做的曲子旋律简单得吓人,现在它能搞多轨编曲,把空间层次感拉满,让人听着就像掉进了音符的海洋里。歌词这块儿也是个大进步,以前AI说话总结巴、跑调,现在这个模型的PER只有8.55%,比Sunov5的12.4%还要强不少,跟MiniMax2.5差不多水平。这就意味着以后的AI歌不仅能好听,还能把词儿说得跟人一样清楚。 再说说可控性。不管是给它文字描述还是声音提示,它都能精准地照着做。这种双管齐下的设计让创作者有了更多的发挥空间,让他们在AI的帮助下做出独一无二的作品。 这个架构设计挺有意思的,用了那种混合式LLM-扩散的路子。作曲大脑(LeLM)负责整体规划,高保真渲染器(Diffusion)则把细节合成出来。这样的“双核”设计让音乐质量蹭蹭往上涨。 开源这事儿腾讯也是诚意满满。他们把4B参数的SongGeneration-v2-large模型直接给扔出来了,支持中英等多国语言生成。让人意外的是,这款模型只需要22GB显存的电脑就能跑得飞起,大大降低了普通人的创作门槛。 为了方便大家体验,项目组还在HuggingFace放了个SongGeneration-v2-Fast版本。虽然音质牺牲了一点点,但速度简直快得离谱,一分钟就能做出一首完整的单曲。这种神速彻底把传统音乐创作的老路子给颠覆了。 现在看AI音乐已经从以前那种极客玩具变成了真正能用在商业上的东西了。等以后Medium模型以及自动化评估框架也开源出来之后,“全民作曲家”的时代可能真的要来了。音乐这东西以后不再是艺术家的专利了,每个人都能自己动手摸一摸梦想的模样。