iphone 17 pro能把4000亿参数的大模型跑起来

有个叫anemll的网友试了一下,他把iPhone 17 Pro拿出来,给它装上了一个超级大的语言模型,参数高达4000亿个。这事儿本来挺难的,因为平常要跑这么大个模型,得靠几十上百个GB的内存才行,而这个手机的内存才只有12GB。不过他找了个开源的项目叫Flash-MoE帮忙,利用了一种叫流式传输的技术。这个技术就是把数据直接从手机的SSD固态硬盘里弄到GPU上去用。 Flash-MoE用的是那种混合专家模型的架构,有了它,手机生成每个Token的时候就不用把全部4000亿参数都翻出来。大家只要用到一小部分就行,这样内存压力就小多了。 测试结果出来了,iPhone 17 Pro确实能跑起来。不过速度很慢,生成一个单词大概要花1.5到2秒的时间。这速度要是用来打字或者聊天,感觉还是挺吃力的。不过这也是个好兆头,说明以后手机自己跑大模型还是有戏的。 除了用Flash-MoE这种方法外,开发者们也在想别的招数。比如把模型压缩一下变成量化版的。就算压缩了,这种模型还得要至少200GB的内存呢。 总的来说,iPhone 17 Pro能把这个4000亿参数的大模型跑起来是一次重要的尝试。虽然现在速度慢了点,但这证明了手机以后完全能搞定更复杂的AI任务。技术要是再进步一点的话,智能手机的用处肯定会越来越大。