seedance2.0：让中国在ai 领域又领先了一步

一位熟悉游戏开发的朋友提起，这次技术让中国在AI领域又领先了一步，大家都觉得很荣幸。就说那天吧，在东方明珠塔底下，那个叫“雪王”的角色一出来就特别帅，拿着冰淇淋权杖喊出了雪顶咖啡和珍珠奶茶当作武器，跟奥特曼打得火热。正打得激烈的时候，雪王突然掏出个福袋，奥特曼愣了两秒钟，也跟着拜了早年。这个大家看来挺有意思的场面，居然是AI用十来分钟生成的一个15秒的视频。我呢，当时就写了几句提示词，连照片都没传一张，结果镜头怎么运、画面怎么分、音效怎么配，全是AI自己搞定的。帮忙实现这个脑洞的是字节跳动旗下的Seed团队刚推出来的大模型Seedance2.0。正是这个模型，让游戏科学的创始人冯骥今天发了感慨，说“庆幸这项技术来自中国”。眼看就要过春节了，好多别的行业的人都放假去了，AI圈还是跟以前一样卷得厉害。做这个“当红炸子鸡”Seedance2.0的Seed团队是2023年才成立的，他们研究的方向多得很，像大语言模型（LLM）、语音识别、视觉处理、基础架构（Infra）什么都有。“豆包”大模型已经用在了50多个地方了。Seedance2.0不光能把文本或者图片变成视频，还能拿视频和音频当参考输入进去，总之你想怎么玩都行。现在新用户第一次登录官网就能免费体验2次，每次能做个4到15秒的片子，想接着玩就得交钱了。官方资料说Seedance2.0是用双分支扩散变换器架构做的，可以同时生成视频和声音。它有个多镜头叙事的功能，给它一个提示它就能自己生成好几个相互连着的场景。 AI还会自动把角色的样子、画风还有氛围都统一起来，不用人去手动编辑，“特别适合从头到尾编个故事序列，保证专业级的连贯”。团队给自己的产品打了个响亮的旗号：“Seedance2.0正式上线！Kill the game（终结比赛）。”冯骥对这个说法评价是很客观的。冯骥觉得这次AI在理解多模态信息并整合的能力上有了个大飞跃。就在今天下午他发了个长微博，讲了他用Seedance2.0的感受还有心里的一点担忧。他列了六点：1. 最强的视频生成模型没有之一；2. 在理解文字、图像、影音这些方面实现了飞跃；3. 虽然现在要付费用但建议大家亲自试试就知道厉害在哪儿了；4. 做视频的成本以后就只跟算力有关系了；5. 大家都能随便拍视频了；6. 以后的假视频太多信任危机就来了。他专门提醒大家：未来所有没经过官方确认的视频，特别是有你的脸或者声音的，很可能是假的，得留个心眼多核实核实。最后他写了一句：“我很庆幸，至少今天的Seedance2.0来自中国。” 这两天这个强得没边的模型在国内外火得一塌糊涂。国内有个做AI的博主Simon_阿文说：“即梦这次真的扬眉吐气……我以前写提示词可没这么轻松。”有个动漫博主无畏漫境还说：“三年前看威尔·史密斯吃面那个视频的时候我还觉得AI颠覆影视是个笑话呢。”影评人Agent阿神直接说：“那些演短剧的演员估计得失业了。” 小红书上甚至已经有人用Seedance2.0弄出了霸总题材的短视频来发。海外那边也有个学了三年数字电影的网友惊呼：“我简直不敢相信自己的眼睛……”“影视飓风”的Tim昨天也发了视频夸它厉害，不过他也提到了个问题：训练模型用的那些照片是不是经过人家同意的？比如Tim在使用时发现只要给一张自己的照片，不需要声音样本，系统就能模仿他的声音讲话了，因为系统已经知道他是谁了。这时候就有人问了：“如果只凭一张照片就能合成能用来刷脸的动态视频怎么办？” 技术跑得越来越快了，关于它的讨论才刚刚开始呢。