我国科学家突破智能计算瓶颈 高能效专用芯片实现算力革命性提升

问题——从个性化推荐到图像分析,越来越多的智能应用需要在海量数据中迅速完成特征提取与模式识别。

随着数据规模扩张和模型复杂度上升,传统数字计算芯片在速度与能耗上的矛盾日益突出:一方面要更快的训练和推理来支撑实时响应,另一方面能耗与散热成本持续抬升,成为限制智能服务体验和算力供给的现实瓶颈。

如何在不显著牺牲精度的前提下提升关键任务的计算效率,已成为智能计算体系面临的共性挑战。

原因——上述瓶颈的形成,与部分核心算法“计算密度高、并行需求强”的特性密切相关。

研究团队瞄准机器学习中的非负矩阵分解这一典型任务。

该方法可从用户行为、图像像素等复杂数据中提炼潜在结构,在信息聚类、图像分解与推荐系统等领域应用广泛。

但其求解过程需要同步优化两个矩阵,计算链条长、迭代步骤多,传统数字芯片主要依赖串行或有限并行的指令执行方式,难以在能耗可控的条件下实现更高吞吐,导致该类约束优化任务在大规模场景中更易成为“卡点”。

影响——针对上述痛点,团队转向模拟计算路径,研制出基于阻变存储器阵列的非负矩阵分解模拟计算求解器,并构建原型系统开展验证。

研究显示,该系统通过电路与算法协同设计,在核心计算环节实现高度紧凑的模拟电路结构,并采用电导补偿等原创技术,使关键步骤能够以更少的计算过程完成求解,从而降低面积与能耗开销。

在实验效果上,系统完成彩色图像的高质量分解,信噪比损失较小;在电影推荐数据集训练任务中,结果精度与数字方案基本一致。

系统级评估进一步表明,在面向大规模推荐训练场景时,该方案相较先进数字芯片实现约12倍速度提升,能效比提升超过228倍,显示出在特定计算任务上的显著优势。

对策——面向算力需求持续增长的趋势,提升能效的关键在于“因任务而设”的计算体系构建:一是围绕高频核心算子与典型优化问题,推进专用硬件加速,减少通用架构在复杂迭代任务中的冗余开销;二是加强算法、器件与电路的协同研发,以系统工程方法解决精度、稳定性与可扩展性问题,避免只追求单点指标而忽视工程落地;三是完善从实验原型到应用验证的链条,推动在真实数据规模、真实负载条件下的长期评测,为后续产业化提供可复用的指标体系与可靠性依据。

对我国而言,围绕新型计算架构加快关键技术攻关,也有助于在智能计算核心环节形成更稳定的能力供给。

前景——从发展方向看,专用高能效芯片有望在两类场景率先体现价值:其一是对时延敏感的在线推荐与实时分析,可在不显著增加能耗的情况下提升响应速度与服务体验;其二是对算力消耗极大的模型训练环节,若能在关键约束优化任务上提供更高能效的加速器,将有助于降低训练成本并提升算力利用效率。

当然,模拟计算等新路径走向更大规模应用仍需跨越工程化关口,包括器件一致性、噪声与漂移控制、系统集成与软件生态适配等。

随着相关研究深入、工艺与设计方法迭代,这类面向特定任务的高能效架构有望与现有数字计算体系形成互补,推动智能计算在性能与能耗之间取得新的平衡。

当前,全球正处于人工智能快速发展的关键时期,算力已成为制约技术进步的核心资源。

北京大学团队的这项突破表明,面对算力瓶颈,创新不仅体现在芯片工艺的微观进步,更体现在计算架构的根本性转变。

从通用计算向专用计算的转变,从数字计算向模拟计算的融合,正在开启高效计算的新时代。

这启示我们,在追求技术突破的过程中,需要既有对基础理论的深入理解,也有对实际应用的敏锐洞察,更需要学科交叉融合的创新思维。

随着更多类似的专用芯片方案不断涌现,我国在智能计算领域的竞争力必将进一步增强。