问题——现实世界物体类别不断变化,传统检测体系的“封闭词表”限制日益突出。随着智能制造、城市治理、公共安全和服务机器人等应用扩展,视觉系统不仅要“看得清”,还要“认得全”。但长期以来,主流目标检测模型多依赖预设类别进行训练和部署,一旦遇到训练集未覆盖的新物体、新品类或更细分的概念,识别与定位能力就会明显下降。“封闭词表”的局限使模型开放环境中的适用性受到限制。原因——算力与标注成本双重压力,影响开放词汇检测落地。为突破固定类别限制,学界近年来持续推进开放词汇目标检测:借助文本信息与大规模视觉语言预训练能力,让模型具备对“未见类别”的理解与检出能力。但现有路线仍面临两类矛盾:一是部分方法依赖层级更深、结构更复杂的跨模态融合,训练与部署成本较高;二是为了获得可靠的对齐关系,往往需要大量精细标注和专门数据集支撑,数据获取与维护成本高,难以快速覆盖长尾类别和新概念。在工程实践中,这些成本压力会直接拖慢模型迭代和规模化应用。影响——泛化能力成为竞争焦点,“少数据+强泛化”决定应用边界。从产业侧看,开放环境下的新目标检测需求普遍存在:城市道路上的新型交通工具、工厂产线的新零部件、应急场景中的临时设施等,往往难以提前穷举并完成标注。在有限数据条件下,谁能更稳定地识别新类别,谁就更可能在复杂场景中形成持续优势。因此,如何提升视觉与文本语义的稳健对齐、并在不增加推理成本的前提下增强泛化能力,正成为该方向的关键任务。对策——HDINO在既有架构上做“轻量增强”,兼顾训练效率与部署可用性。重庆大学团队在DINO目标检测框架基础上,引入视觉语言模型的语义能力,提出开放词汇检测系统HDINO。研究思路强调两点:其一,通过更有效的视觉—文本语义对齐提升对新概念的可迁移理解;其二,采用轻量模块与训练策略获得能力增益,避免将计算负担转移到推理部署阶段。据介绍,HDINO采用两阶段训练:先构建更可靠的语义对齐,再通过轻量特征融合增强模型对文本语义的敏感度。方法层面的核心创新主要体现在两上:第一,提出“一对多”语义对齐机制,增强同一目标不同定位难度下的语义一致性。传统对齐方式多按“一对一”将视觉特征与文本标签配对,容易受定位误差、遮挡和背景干扰影响。HDINO针对每个真实标注框生成多个扰动后的高质量正样本框,使模型在训练中同时看到同一目标的多种空间覆盖方式与上下文条件,并为这些样本引入可学习的辅助查询,实现同一目标的“一对多”匹配训练。研究还对训练过程的信息流进行约束,避免辅助查询与原始查询之间形成不当依赖;推理阶段则移除辅助查询,使推理结构保持与原始DINO一致,确保部署效率不受影响。该设计旨在提升语义对齐的稳定性与鲁棒性,从而增强开放词汇条件下的可泛化检测能力。第二,引入“难度加权”的分类损失设计,引导模型更关注高难样本与边界情况。在开放词汇检测中,样本难度差异明显:既有定位准确、语义清晰的样本,也有遮挡严重、尺度极小或与背景高度混淆目标。研究在训练损失中引入难度加权,对不同难度样本赋予不同训练权重,促使模型在学习过程中更多关注易混淆与高不确定性样本,从而提升在复杂场景和长尾类别上的辨识稳定性。该设计与“一对多”对齐机制形成互补:前者扩大对齐覆盖,后者加强对难点样本的学习力度。前景——开放词汇检测将加速从研究走向应用,数据治理与评测体系仍需同步完善。业内人士认为,开放词汇目标检测是通用视觉能力的重要组成部分,能够支撑多行业“快速上线、持续扩展”的现实需求。随着视觉语言预训练能力持续发展,未来开放词汇检测有望在三上深入演进:一是以更低标注成本覆盖更多细分概念;二是在边缘设备与实时场景中实现更高效的推理部署;三是与场景知识库、行业术语体系结合,提升专业领域的可解释性与可控性。同时,开放词汇任务的评测标准、数据合规与偏差治理仍是持续推进的基础工作,需要学界与产业界共同完善。
重庆大学这项研究成果显示我国计算机视觉基础研究上取得新的进展。在数字化转型加速的背景下,该技术有望缓解人工智能应用中的数据与类别扩展难题,为构建更具适应性的智能系统提供支撑。未来,随着跨模态学习技术持续发展,人机协同的智能化应用场景有望深入拓展。