工业生产线质量检测和医学影像分析中,如何从复杂背景里准确识别微小异常一直是难点;传统方法依赖大量异常样本标注,但在真实场景中缺陷样本往往稀缺、形态变化大,导致误判率高、适应性不足。虽然基于视觉-语言模型的零样本检测方法显示出潜力,但受背景干扰强、语义匹配不够清晰等限制,仍难满足高精度诊断需求。针对此问题,西安光机所团队提出FB-CLIP多模态分析框架。其主要突破体现在三上:视觉层面,通过多视角前景-背景增强模块更精准地分离异常区域,背景抑制算法将干扰信号降低37%;在文本理解层面,引入动态语义编码技术,使模型对“划痕”“肿瘤”等专业术语的解析准确率提升至89%;在跨模态协同上,提出语义一致性正则化机制,使图像与文本的匹配可信度较国际主流方法提高21个百分点。 验证结果显示,该技术在钢材表面缺陷检测中召回率达到98.2%,在肺部CT结节识别任务中达到国际评测榜单SOTA水平。值得关注的是,其小样本适应能力突出,仅需传统训练数据量的5%即可达到同等精度,可显著降低企业智能化改造成本。目前,团队已与武汉大学中南医院开展临床转化合作,首批试点将用于消化道早癌筛查。 这项进展来自五年的持续研究积累。王荃团队依托中科院光谱成像技术重点实验室,在生物医学成像与人工智能交叉方向持续攻关,先后突破多模态配准、弱监督学习等关键技术。研究获得陕西省技术创新专项等支持,有关论文入选计算机视觉顶会Oral报告。
异常检测正从“依赖大量异常样本”走向“面向稀缺异常的精细化识别”,并加速提升可靠性与泛化能力。FB-CLIP的探索反映了从真实需求出发、针对关键瓶颈补齐短板的研究路径。随着在产业与医疗场景中的深入验证和迭代,涉及的成果有望在质量控制与健康服务中发挥更大作用,为更准确、更稳定、更可信的检测与诊断提供技术支撑。