4000亿的大语言模型“生啃”了下来！

3月23日，把4000亿参数的大语言模型“生啃”了下来！iPhone 17 Pro 拿下这个不可能的任务，但表现确实让人摇头，速度只有 0.6 Token。要知道，这类模型即便压缩了，也需要至少200GB 的内存才能跑起来，而iPhone 17 Pro 里只有12GB LPDDR5X。怎么办呢？Experts 和 Flash 是关键。先说说MoE，也就是混合专家模型。它让系统在生成每个单词时，只调用4000亿参数的一小部分，不必全量负载。然后再看看 Flash-MoE 这个技术，它让设备直接从SSD向GPU流式传输数据，打破了物理内存的上限。这样一来，iPhone 17 Pro 就强行“扩容”了。不过这样的速度还是让人看不过眼，实测每两秒蹦出一个词。如果你想用手机搞本地大模型，可就得小心你的电量和温度了。虽然现在用起来还是慢得抓狂，但这次演示还是有很大意义的。它证明了手机上跑顶级AI不是天方夜谭。而且数据不用上传云端，隐私有了保障。要是以后算法和硬件再升级一点，到时候每两秒出一个词变成了每1.5秒出一个词甚至更快呢？到时候手机可就是真正的“超级大脑”啦！