腾讯携手清华搞了个大新闻，把音乐创作的界给彻底掀翻了

3月9日，腾讯携手清华搞了个大新闻，把音乐创作的界给彻底掀翻了。他们搞出来的SongGeneration 2不仅是个技术产品，更是AI音乐这行当里的一次大突破。之前大家总觉得AI做的歌太塑料、没层次感，这回这个模型直接把这些问题都解决了。就像有个音乐家说的，音乐是心灵的声音，AI就把这声音的未来给捧起来了。 SongGeneration 2那叫一个强，把过去的三个大问题全给摆平了。以前AI做的曲子旋律简单得吓人，现在它能搞多轨编曲，把空间层次感拉满，让人听着就像掉进了音符的海洋里。歌词这块儿也是个大进步，以前AI说话总结巴、跑调，现在这个模型的PER只有8.55%，比Sunov5的12.4%还要强不少，跟MiniMax2.5差不多水平。这就意味着以后的AI歌不仅能好听，还能把词儿说得跟人一样清楚。再说说可控性。不管是给它文字描述还是声音提示，它都能精准地照着做。这种双管齐下的设计让创作者有了更多的发挥空间，让他们在AI的帮助下做出独一无二的作品。这个架构设计挺有意思的，用了那种混合式LLM-扩散的路子。作曲大脑（LeLM）负责整体规划，高保真渲染器（Diffusion）则把细节合成出来。这样的“双核”设计让音乐质量蹭蹭往上涨。开源这事儿腾讯也是诚意满满。他们把4B参数的SongGeneration-v2-large模型直接给扔出来了，支持中英等多国语言生成。让人意外的是，这款模型只需要22GB显存的电脑就能跑得飞起，大大降低了普通人的创作门槛。为了方便大家体验，项目组还在HuggingFace放了个SongGeneration-v2-Fast版本。虽然音质牺牲了一点点，但速度简直快得离谱，一分钟就能做出一首完整的单曲。这种神速彻底把传统音乐创作的老路子给颠覆了。现在看AI音乐已经从以前那种极客玩具变成了真正能用在商业上的东西了。等以后Medium模型以及自动化评估框架也开源出来之后，“全民作曲家”的时代可能真的要来了。音乐这东西以后不再是艺术家的专利了，每个人都能自己动手摸一摸梦想的模样。