东吴证券：端侧ai 落地太慢、终端硬件升级没跟上需求

东吴证券最近给大家发了个报告，聊的是端云协同怎么影响AI入口和硬件变革。2024年，行业还在盯着高频刚需，比如图片处理、文字摘要这些容易上手的活儿。到了2025年，大家明显加快了脚步，开始搞多模态创作了，比如语音交互、生成图像什么的。这么一比，各家在系统底层的渗透也更深入了。竞争的焦点不再是功能有多少，而是多模态体验好不好，系统整合深不深。云端模型这块儿，大模型的能力是越跑越宽，成本也得跟着变。以前光看模型本事行不行，现在得看能不能真把活干利索。为了这个目标，2026年起海外大厂开始扎堆搞代码能力和多Agent体系。在代码模型上，智能体时代需要的是长链条推理和实时交互。OpenAI的Codex-Spark主打低延迟，让开发者能随时打断、纠偏；Claude4.6这种长链型Agent则通过加长上下文长度提高成功率，推理侧的算力消耗也会跟着往上抬。未来，“快交互长推理”这两种本事组合起来，会是通用Agent的重要方向。多智能体框架也正在变成主流架构。春节期间国内厂商也没闲着，“性能追平海外、价格往下探”的特征很明显。应用端的需求也开始释放了，云端模型的经验给端侧做了个好模板。端侧模型和云端是分工合作的关系：高频轻量、强隐私的任务就在本地跑；复杂长生成的任务打包了上云去做。现在端侧进化主要在两个方面：一个是多模态能力，全双工流式架构变成了主流；另一个是算法侧压缩，用Edge MoE、低比特量化、Attention效率优化、KV Cache优化这些手段省功耗。随着整机AI向多模态升级，核心部件也在升级内存和功耗。三星LPDDR6在保持高速的同时把能效提高了21%。三星在2025年12月19日推出的Exynos2600芯片引入了新的材料优化散热路径，让热阻比上一代低了16%。高通Snapdragon8Elite Gen6这些新平台可能会把算力、存储和散热一起提升上来。东吴证券陈海进团队觉得风险主要有三点：模型能力没达标、端侧AI落地太慢、终端硬件升级没跟上需求。