我国科研团队攻克图像识别技术难题 弱监督语义分割精度获提升

语义分割是计算机视觉的基础能力之一,核心是对图像进行像素级分类:既要识别画面“有什么”,也要标出“哪里”。此能力直接影响自动驾驶对道路、车辆和行人边界的判断,医学影像对病灶范围的精细勾画,以及地理信息系统对地物类型的测绘精度。随着视觉应用从“识别目标”走向“理解场景”,分割结果的稳定性和细节完整度变得更关键。难点在于,高精度语义分割长期依赖全监督训练,即为每张图片提供逐像素标注。像素级标注耗时耗力,数据量一大成本迅速攀升,限制了技术在更多行业的规模化应用。为降低门槛,弱监督语义分割成为重要方向:通常只使用图像级标签(如只标注“猫”“车”等类别),先训练分类网络,再用类激活特征图生成伪标签,进而训练分割网络。这条路线显著减轻了标注负担,但也带来新的精度瓶颈。 造成瓶颈的关键在于,类激活特征图往往只关注最具判别力的区域,比如动物的头部、车辆的车灯等。对背景复杂、目标较小、位于边缘或角落、被遮挡或与背景颜色接近的部分,激活响应往往不足,导致伪标签先天缺失。近年来,一些方法尝试用形态学膨胀、边缘连接、背景抑制等方式扩展显著区域,但在实际场景中容易把同类目标的边缘细节当作噪声去掉,出现“主体大体完整但细节断裂”“中心清晰而边角空白”等问题,漏分割率因此居高不下,尤其在需要精确轮廓的任务中影响更明显。 围绕这些问题,研究人员提出基于非显著区域对象挖掘的弱监督语义分割新思路:不再仅围绕显著区域做“扩张”,而是将长期被忽视的非显著区域作为信息来源进行系统挖掘。主要做法包括:在训练分类网络阶段引入基于图的全局推理单元,让远距离、非连续区域建立联系,增强对整体结构的理解;同时生成原始激活图与在线累积激活图,后者记录训练过程中持续出现响应的潜在目标区域,减少一次性激活带来的不稳定;再结合显著图提供的背景线索,从累积信息中筛选潜在对象,形成第一版像素级伪标签;随后将伪标签与分割网络的预测结果融合,并通过非显著区域掩码模块继续清洗与补全,得到更一致、更干净的训练标签,最终以迭代方式回训分割网络。 从实验结果看,该方法在公开弱监督基准测试中表现突出:漏分割率平均下降约18%,边缘对应的指标提升约7个百分点。定性对比也显示,传统方法常在目标尾部、轮廓边缘或遮挡区域出现断裂、缺失,而新方法能更好恢复连续结构,使目标边界更完整、更一致。对弱监督分割来说,这意味着伪标签质量得到实质提升,模型不再停留在“只看最显眼的部分”,而更接近对完整目标的像素级理解。 在应用层面,这一改进具备较强的外溢价值。其一,在城市街景等场景分割中,有助于更稳定地区分道路、墙面、指示牌等细长或位于视野边缘的对象,提升复杂环境下的鲁棒性。其二,在实例分割任务中,轮廓精度提升有助于区分相邻目标,减少粘连误判。其三,在车辆检测与统计等任务中,角落或遮挡条件下的部件识别更充分,有利于提高召回率。研究还显示,在弱监督训练的基础上加入少量像素级标注进行微调,可提升关键指标,为“低成本标注+可用精度”的工程路径提供了可行选项。 从技术路线看,业内普遍认为弱监督分割的核心在于伪标签生成与误差控制。该方法的意义在于:一上通过全局推理增强远距离区域的关联建模,减少“只盯中心显著区”的偏差;另一方面借助在线累积与掩码清洗提高伪标签稳定性,形成可迭代的质量提升闭环。对产业落地而言,模块化设计也便于在不同弱监督框架中接入,降低迁移成本,更容易在垂直行业沉淀为可复用组件。 展望未来,研究人员计划进一步探索更轻量的全局推理结构,推动非显著区域掩码模块的可学习化,并将方法从单帧图像扩展到视频场景,利用目标运动与时序一致性补全静态图像中不易显现的细节。随着多模态数据与边缘计算需求增长,弱监督分割若能在成本可控的前提下持续逼近全监督精度,有望在车路协同、智慧医疗、城市治理、遥感监测等领域释放更大应用空间。

从“关注显著区域”到“补全非显著信息”,弱监督语义分割的进展反映了计算机视觉从粗到细、从局部到全局的演进。降低对像素级标注的依赖、提升细节覆盖能力,将为智能驾驶、智慧医疗、城市治理等提供更扎实的基础能力。未来,如何在成本、精度与效率之间取得更优平衡,并在真实复杂环境中保持稳定表现,仍是有关技术走向规模化应用的关键问题。