互联网大厂们正在云端玩得热火朝天,面壁智能创始人李大海却不觉得自己会被压垮,他依然信心满满。“AI本身就是第四次技术革命带来的产业级机会,创业公司肯定能找到大把机会。”他说,“关键看你选择哪种打法,是冲进大市场抢个边角料份额,还是在细分赛道争当领头羊——全看你的策略选得对不对。”全模态模型配上端侧硬件,这算不算好路子?面壁智能打算沿着这条路走下去,把大模型真正推向千家万户。 2月4日,面壁智能亮出了看家本领,发布了新一代全模态模型MiniCPM-o 4.5。这是一个参数规模约9B的大家伙,它不光能听视频、音频、读文字流,还能一口气不停地说话。更绝的是,它还是个全双工的家伙:不管它正在往外吐字呢还是忙着听声音、看画面,都能在不卡壳的情况下调整自己的回答策略。哪怕是在外面有公交车进站、红绿灯变绿这些事儿发生的时候,它都能一边忙着跟人聊天,一边继续盯着环境变化,把这些关键信息第一时间说出来。公司的多模态首席科学家姚远给记者解释道,跟以前那种靠语音活动检测(VAD)这种老办法比起来,现在的这种方案更像真AI干的活儿,完全由模型自己说了算。 大家常说全模态模型是未来“具身大脑”的雏形。之所以这么说,是因为9B这种规模的参数咱们还算能扛得住。不管是装进机器人肚子里、塞进车里的电脑系统还是搬回家的PC机里,都跑得动。就拿具身智能来说吧,现在大伙儿的心思都放在怎么操控身体和搞视觉语言动作(VLA)上了。但说到理解人话、跟人唠嗑、一直陪着玩这块儿,还是缺了点什么。咱们团队觉得,像这种能一边听一边想的全模态模型,正好能补上这一短板。 除了发模型,面壁还带来了首款硬件产品松果派(Pinea Pi),打算今年就把它弄出来给开发者用。这是一款教育市场用的板子,用来帮大家入门的。它是基于NVIDIA Jetson系列模组做的,把麦克风、摄像头和各种接口都塞了进去。你能在上面离线当私人助理、试试具身智能的原型机、教孩子学编程……之所以叫AI原生开发套件,就是为了让开发者用自然语言就能直接指挥硬件干活儿;像MiniCPM-V和MiniCPM-o这几个系列的模型也可以直接拿来就用;关键是它们能离线运行省得你老花钱买token流;这样数据也更安全、系统更稳当。 松果派预计年中就能正式量产上市,具体多少钱还没说。公司表示价格主要看硬件成本多少。 虽说现在大家都在拼命往多模态模型的天花板上冲吧,但在算法架构这块儿的事儿上,面壁智能的感觉并不太好。姚远跟记者吐槽道:现在多模态的理解跟生成底层的路子走得太不一样了。视觉理解多半靠的是那种连续的表征方式;而搞生成的时候往往是用扩散模型那一套;这两者根本不是一个技术流派。这种分家的状态就限制了它在理解和生成之间的泛化能力;这跟咱们想要的通用人工智能的梦想也不太搭界。 大家现在都在琢磨用统一的自回归模型把不同的东西放进一个框里去做理解和生成。不过这条路现在也不容易走通。特别是像视频、音频这种本来就是连续的信号硬被切成一段段离散的数据以后;在做OCR或者细抠字这些活儿的时候损失就很大了。 再加上数据的问题也没那么严重。现在互联网上的视频音频数据多得是还在猛长呢;可真正拿出来喂给模型的比例其实没多少。问题不在于数据够不够;而在于咱们有没有办法把这些数据变成真正能泛化的本事。 尽管面对云端大佬们的激烈竞争;面壁智能还是想在端侧这块儿探探路;不过李大海对眼下的硬件和终端形态看得比较淡。他说现在手机上都有豆包、千问这些东西了;行业大家都看出来了:以AI为核心的新一代人机交互方式已经有个大概模样了;但要彻底成熟还得慢慢磨。他把这事儿比作从以前那种功能机变成智能机的过程——方向是对的但不会一下子就好;还得等云端和端侧两边的能力都涨起来才行。 哪怕到了现在这个节骨眼儿上;就算拿业界最好的云端模型来干活儿;很多复杂任务其实也不一定完全能用。 这就导致了个难题:纯云端方案大概率不是最终答案。一方面是复杂场景下对实时性和稳定性的要求太高了;另一方面是用户的隐私和数据安全不允许你在终端上用太多云端服务。 李大海觉得未来最靠谱的路是端侧和云端配合着用——在能力、体验跟隐私之间找个平衡点——这是从软件到硬件整条产业链的活儿面壁智能除了要把模型能力往手机、汽车、智能硬件里塞;还得加紧跟芯片厂合作去突破硬件上的瓶颈。