ai 图像处理:豆包和千问,谁能把这些马赛克去掉?

刷头条时看到一篇关于AI图像处理的文章,里面夹着两张打了厚重马赛克的图片,主角像是政治人物,万斯那张眼神锐利却被挡住,另一张则是模糊的侧脸。这让我突发奇想,让豆包和千问这两个大模型来一场比赛,看看谁能把这些马赛克去掉。 我先打开豆包APP上传了第一张万斯的图片。AI处理了12秒后,豆包表示无法准确恢复,建议提供更多上下文。结果图片还是原样,只有一点提示,说可能是个戴眼镜的中年男性。这让我有点失望,因为平时豆包生成图片都快如闪电,这次却卡壳了。 我决定换用千问试试。上传同样的图片后,AI只用了9秒就给出了结果。它还原出了轮廓和脸型,头发线条清晰,甚至隐约能看到眼镜框。千问还标注基于训练数据推断,置信度达到了75%。这个结果让我很惊讶,因为和豆包的零输出相比差异太大了。 接下来我又测试了另外一张侧脸图。豆包勉强输出了一个抽象画般的结果,颜色乱七八糟;而千问则稳稳地还原出五官细节。粗略估算下来,千问的响应时间平均比豆包快了20%。个人感觉准确度方面千问胜出得多,特别是万斯那张图片它猜对了身份,有80%的相似度。 其实豆包平时娱乐功能强一些,我常用它生成表情包,但像图像恢复这种严肃任务它表现就弱了。相比之下阿里的Qwen-VL更新更频繁。字节侧重短视频数据而阿里的电商图多,训练集的不同可能影响了恢复精度。 我想起上次实验室测试时的情景。同事小李上传了一张旧照片让豆包恢复马赛克结果变成了卡通形象;而千问直接还原了背景树叶都清晰可见。短短两分钟场景就活了过来。 产业链的影响也很大字节推抖音生态图像偏动态而阿里淘宝静态商品图训练多所以静态恢复更强一些。 测试时我有点怀疑豆包为什么不尽力?也许是因为安全机制的缘故政治图比较敏感所以不输出避免麻烦。 现场估算恢复一张高清图手机上跑豆包要多耗电5%而千问优化得更好生命周期方面视觉模型迭代估计两年一轮新数据喂养等细节还需要回溯。 我翻了测试照片发现昨晚截图时豆包界面是灰灰的无输出提示小字超出能力;而千问那边进度条是绿油油的出图后还有置信条容易被忽略用户使用时得注意这个细节。 工程师老王曾经说过AI图像不是魔法训练集决定上限字节视频多静态弱他的一线经验值得参考。 未来半年豆包视觉或许会升级字节砸钱数据也许能追平但只是直觉而已基于他们招聘视觉专家新闻可以看出一些端倪。 最后一个未竟细节是万斯图片恢复后千问加了注脚可能是JD Vance基于公开数据我盯着屏幕想深挖但还是停下来了AI聪明终究是工具边界模糊还是有待探索。