iphone 17 pro能把4000亿参数的大模型跑起来

有个叫anemll的网友试了一下，他把iPhone 17 Pro拿出来，给它装上了一个超级大的语言模型，参数高达4000亿个。这事儿本来挺难的，因为平常要跑这么大个模型，得靠几十上百个GB的内存才行，而这个手机的内存才只有12GB。不过他找了个开源的项目叫Flash-MoE帮忙，利用了一种叫流式传输的技术。这个技术就是把数据直接从手机的SSD固态硬盘里弄到GPU上去用。 Flash-MoE用的是那种混合专家模型的架构，有了它，手机生成每个Token的时候就不用把全部4000亿参数都翻出来。大家只要用到一小部分就行，这样内存压力就小多了。测试结果出来了，iPhone 17 Pro确实能跑起来。不过速度很慢，生成一个单词大概要花1.5到2秒的时间。这速度要是用来打字或者聊天，感觉还是挺吃力的。不过这也是个好兆头，说明以后手机自己跑大模型还是有戏的。除了用Flash-MoE这种方法外，开发者们也在想别的招数。比如把模型压缩一下变成量化版的。就算压缩了，这种模型还得要至少200GB的内存呢。总的来说，iPhone 17 Pro能把这个4000亿参数的大模型跑起来是一次重要的尝试。虽然现在速度慢了点，但这证明了手机以后完全能搞定更复杂的AI任务。技术要是再进步一点的话，智能手机的用处肯定会越来越大。