4000亿的大语言模型“生啃”了下来!

3月23日,把4000亿参数的大语言模型“生啃”了下来!iPhone 17 Pro 拿下这个不可能的任务,但表现确实让人摇头,速度只有 0.6 Token。要知道,这类模型即便压缩了,也需要至少200GB 的内存才能跑起来,而iPhone 17 Pro 里只有12GB LPDDR5X。怎么办呢?Experts 和 Flash 是关键。先说说MoE,也就是混合专家模型。它让系统在生成每个单词时,只调用4000亿参数的一小部分,不必全量负载。然后再看看 Flash-MoE 这个技术,它让设备直接从SSD向GPU流式传输数据,打破了物理内存的上限。这样一来,iPhone 17 Pro 就强行“扩容”了。不过这样的速度还是让人看不过眼,实测每两秒蹦出一个词。如果你想用手机搞本地大模型,可就得小心你的电量和温度了。虽然现在用起来还是慢得抓狂,但这次演示还是有很大意义的。它证明了手机上跑顶级AI不是天方夜谭。而且数据不用上传云端,隐私有了保障。要是以后算法和硬件再升级一点,到时候每两秒出一个词变成了每1.5秒出一个词甚至更快呢?到时候手机可就是真正的“超级大脑”啦!