我国科研团队攻克图像识别技术难题弱监督语义分割精度获提升

语义分割是计算机视觉的基础能力之一，核心是对图像进行像素级分类：既要识别画面“有什么”，也要标出“哪里”。此能力直接影响自动驾驶对道路、车辆和行人边界的判断，医学影像对病灶范围的精细勾画，以及地理信息系统对地物类型的测绘精度。随着视觉应用从“识别目标”走向“理解场景”，分割结果的稳定性和细节完整度变得更关键。难点在于，高精度语义分割长期依赖全监督训练，即为每张图片提供逐像素标注。像素级标注耗时耗力，数据量一大成本迅速攀升，限制了技术在更多行业的规模化应用。为降低门槛，弱监督语义分割成为重要方向：通常只使用图像级标签（如只标注“猫”“车”等类别），先训练分类网络，再用类激活特征图生成伪标签，进而训练分割网络。这条路线显著减轻了标注负担，但也带来新的精度瓶颈。造成瓶颈的关键在于，类激活特征图往往只关注最具判别力的区域，比如动物的头部、车辆的车灯等。对背景复杂、目标较小、位于边缘或角落、被遮挡或与背景颜色接近的部分，激活响应往往不足，导致伪标签先天缺失。近年来，一些方法尝试用形态学膨胀、边缘连接、背景抑制等方式扩展显著区域，但在实际场景中容易把同类目标的边缘细节当作噪声去掉，出现“主体大体完整但细节断裂”“中心清晰而边角空白”等问题，漏分割率因此居高不下，尤其在需要精确轮廓的任务中影响更明显。围绕这些问题，研究人员提出基于非显著区域对象挖掘的弱监督语义分割新思路：不再仅围绕显著区域做“扩张”，而是将长期被忽视的非显著区域作为信息来源进行系统挖掘。主要做法包括：在训练分类网络阶段引入基于图的全局推理单元，让远距离、非连续区域建立联系，增强对整体结构的理解；同时生成原始激活图与在线累积激活图，后者记录训练过程中持续出现响应的潜在目标区域，减少一次性激活带来的不稳定；再结合显著图提供的背景线索，从累积信息中筛选潜在对象，形成第一版像素级伪标签；随后将伪标签与分割网络的预测结果融合，并通过非显著区域掩码模块继续清洗与补全，得到更一致、更干净的训练标签，最终以迭代方式回训分割网络。从实验结果看，该方法在公开弱监督基准测试中表现突出：漏分割率平均下降约18%，边缘对应的指标提升约7个百分点。定性对比也显示，传统方法常在目标尾部、轮廓边缘或遮挡区域出现断裂、缺失，而新方法能更好恢复连续结构，使目标边界更完整、更一致。对弱监督分割来说，这意味着伪标签质量得到实质提升，模型不再停留在“只看最显眼的部分”，而更接近对完整目标的像素级理解。在应用层面，这一改进具备较强的外溢价值。其一，在城市街景等场景分割中，有助于更稳定地区分道路、墙面、指示牌等细长或位于视野边缘的对象，提升复杂环境下的鲁棒性。其二，在实例分割任务中，轮廓精度提升有助于区分相邻目标，减少粘连误判。其三，在车辆检测与统计等任务中，角落或遮挡条件下的部件识别更充分，有利于提高召回率。研究还显示，在弱监督训练的基础上加入少量像素级标注进行微调，可提升关键指标，为“低成本标注+可用精度”的工程路径提供了可行选项。从技术路线看，业内普遍认为弱监督分割的核心在于伪标签生成与误差控制。该方法的意义在于：一上通过全局推理增强远距离区域的关联建模，减少“只盯中心显著区”的偏差；另一方面借助在线累积与掩码清洗提高伪标签稳定性，形成可迭代的质量提升闭环。对产业落地而言，模块化设计也便于在不同弱监督框架中接入，降低迁移成本，更容易在垂直行业沉淀为可复用组件。展望未来，研究人员计划进一步探索更轻量的全局推理结构，推动非显著区域掩码模块的可学习化，并将方法从单帧图像扩展到视频场景，利用目标运动与时序一致性补全静态图像中不易显现的细节。随着多模态数据与边缘计算需求增长，弱监督分割若能在成本可控的前提下持续逼近全监督精度，有望在车路协同、智慧医疗、城市治理、遥感监测等领域释放更大应用空间。

从“关注显著区域”到“补全非显著信息”，弱监督语义分割的进展反映了计算机视觉从粗到细、从局部到全局的演进。降低对像素级标注的依赖、提升细节覆盖能力，将为智能驾驶、智慧医疗、城市治理等提供更扎实的基础能力。未来，如何在成本、精度与效率之间取得更优平衡，并在真实复杂环境中保持稳定表现，仍是有关技术走向规模化应用的关键问题。

我国科研团队攻克图像识别技术难题 弱监督语义分割精度获提升

我国科研团队攻克图像识别技术难题弱监督语义分割精度获提升