东吴证券最近给大家发了个报告,聊的是端云协同怎么影响AI入口和硬件变革。2024年,行业还在盯着高频刚需,比如图片处理、文字摘要这些容易上手的活儿。到了2025年,大家明显加快了脚步,开始搞多模态创作了,比如语音交互、生成图像什么的。这么一比,各家在系统底层的渗透也更深入了。竞争的焦点不再是功能有多少,而是多模态体验好不好,系统整合深不深。 云端模型这块儿,大模型的能力是越跑越宽,成本也得跟着变。以前光看模型本事行不行,现在得看能不能真把活干利索。为了这个目标,2026年起海外大厂开始扎堆搞代码能力和多Agent体系。在代码模型上,智能体时代需要的是长链条推理和实时交互。OpenAI的Codex-Spark主打低延迟,让开发者能随时打断、纠偏;Claude4.6这种长链型Agent则通过加长上下文长度提高成功率,推理侧的算力消耗也会跟着往上抬。未来,“快交互 长推理”这两种本事组合起来,会是通用Agent的重要方向。 多智能体框架也正在变成主流架构。春节期间国内厂商也没闲着,“性能追平海外、价格往下探”的特征很明显。应用端的需求也开始释放了,云端模型的经验给端侧做了个好模板。 端侧模型和云端是分工合作的关系:高频轻量、强隐私的任务就在本地跑;复杂长生成的任务打包了上云去做。现在端侧进化主要在两个方面:一个是多模态能力,全双工流式架构变成了主流;另一个是算法侧压缩,用Edge MoE、低比特量化、Attention效率优化、KV Cache优化这些手段省功耗。 随着整机AI向多模态升级,核心部件也在升级内存和功耗。三星LPDDR6在保持高速的同时把能效提高了21%。三星在2025年12月19日推出的Exynos2600芯片引入了新的材料优化散热路径,让热阻比上一代低了16%。高通Snapdragon8Elite Gen6这些新平台可能会把算力、存储和散热一起提升上来。 东吴证券陈海进团队觉得风险主要有三点:模型能力没达标、端侧AI落地太慢、终端硬件升级没跟上需求。