CVPR 2024将在美国西雅图会议中心举行现场会议,讨论的内容包含深度学习、计算机视觉、大规模机器学习、学习理论、优化、稀疏理论等众多细分领域。根据CVPR官方网站统计,2024年一共收到有效投稿论文11532篇,接收率为23.6%。在激烈的竞争中,创新奇智投稿的论文脱颖而出,显示创新奇智在人工智能领域深厚的创新力。
图 1 论文摘要截图
无监督细粒度图像哈希旨在无监督环境下学习细粒度图像紧凑的二进制哈希码,解决大规模数据集以及对监督学习的依赖所带来的挑战,在各种应用中都具有实际意义。
在本文中,我们首先识别出无监督哈希方法在通用数据集和细粒度数据集之间存在的粒度差距,强调了传统自监督学习对于细粒度视觉对象的不足。为了拟合这一差距,我们提出了一种新颖的方法 — 非对称增强自监督学习(),包括三个模块:非对称增强的SSL模块、面向部件的密集对比学习、自一致哈希码学习。非对称增强的SSL模块采用适当的增强策略以生成正/负样本视图,防止了传统SSL固有的细粒度类别混淆问题。此外,我们认识到细粒度对象部分的重要性,例如鸟的头部或尾部等。因此,面向部件的密集对比学习利用Fisher向量框架来以端到端的方式捕获和建模这些对象部分,通过部分级别的密集对比学习增强无监督表示。最后,我们意识到自监督学习主要强调图像样本之间的整体视觉相似性,可能忽视微妙但具有判别性的细粒度模式。因此,自一致哈希码学习引入了一个与自一致性原则对齐的重建任务,指导模型强调综合特征,特别是细粒度模式。在五个基准数据集上的实验结果证明了优于现有方法,确认了其在无监督细粒度图像哈希中的有效性。创新背景
细粒度图像检索是细粒度图像分析领域重要的一部分,这个任务除了要求正确估计子类别外,还需要对数据库中的所有实例进行排名,其中来自相同子类别的图像根据查询中呈现的细微细节被优先考虑。与通用图像检索相比,后者侧重于基于内容相似性(如纹理、颜色和形状)检索相似的图像,而细粒度图像检索侧重于检索相同类别类型的图像(如同一物种的动物或同一车型)。
随着现实世界应用中细粒度数据的爆炸性增长,细粒度哈希技术成为处理大规模细粒度检索任务的一种有前景的解决方案。它利用了学习到的紧凑二进制哈希码表示,已经表现出显著降低存储成本和提高查询速度的能力。但它们仍然依赖于领域专家提供的细粒度类别标签。在某些情况下,获得广泛且准确的细粒度监督信息是具有挑战性甚至不可能的。在本研究中,为了减少对监督的依赖,我们尝试使用自监督方法来训练模型。这使得任务充满了挑战性,并且具有实际意义。
论文的主要贡献
1. 我们首次识别了通用数据集和细粒度数据集在无监督哈希方法中的粒度差距,并解决无监督细粒度图像哈希这一具有挑战性的任务。
2. 我们提出了一种非对称增强的自监督学习方法(Asymmetric Augmented Self-Supervised Learning),包括三个关键模块,即非对称增强SSL、面向部件的密集对比学习和自一致哈希码学习,专门用于无监督的细粒度哈希码学习。
3. 我们在五个常用的细粒度基准数据集上从定量和定性两个方面进行了全面的实验,结果表明我们提出的方法在这些数据集上取得了出色的检索能力,超越了竞争性解决方案。这进一步证明了我们方法的有效性和实用性。
图 2为该方法在训练期间的说明。我们提出的方法主要由三个关键部分组成,即非对称增强SSL、面向部件的密集对比学习和自一致性哈希码学习。在两个分支中的所有参数都是共享的。非对称增强的自监督学习:通过非对称增强方法对每一个样本创建三种增强视图:锚点视图,正样本视图和负样本视图;锚点视图仅通过Resize操作作用于样本生成,正样本视图仅通过RandomCrop操作作用于样本产生,负样本视图则经历两个破坏性增强,即ColorJitter和ElasticTransform操作,以诱导其产生与细粒度对象相关的实质性变化,每一个视图都经过模型生成相应的哈希码,并计算模型产生的哈希码之间的相似度,以计算非对称自监督损失:
面向部件的密集对比学习:使用高斯混合模型对卷积神经网络输出的深度特征描述子进行建模,其中,分别是第K个高斯分量的混合权重、均值向量和协方差矩阵;H和W分别是激活张量的高度和宽度;并计算每个簇对应的部位级原型,随后扩展传统对比学习至部位级密集对比学习,
根据建模参数,计算高阶统计信息,并聚合为Fisher向量得到部位级信息;
其中,代表软分配,即由第K个高斯生成的概率;最终的Fisher向量是从所有K个聚类中的和进行拼接得到;为了得到全面的图像表示,通过两个全连接层进行对深度特征T 进行聚合得到图像级信息,将之与部位级信息进行组合得到完整的图像表示f,用于生成哈希编码,将部位级信息与卷积神经网络计算得到的全局信息进行结合,即得到完整的图像表示。
自一致哈希学习: 通过编-解码结构将重构任务引入哈希学习,构建自一致性哈希学习模块,使用编码器矩阵W 将f 投影到q维潜在空间,以获得内部潜在表示v;遵循自一致性原则,使用解码器对f进行重构:
其中表示一个小批量中的图像嵌入,V对应于一个小批量中的潜在表示v;将学习目标通过软约束改写为,
期望是哈希学习更全面的特征,涵盖整体视觉模式和细粒度模式。不同模块的作用如表 1所示,可以看到,每个模块都对结果有一定的提升,当按照论文提出的方法结合在一起时,达到最佳的效果。
表 1 每个模块的效果
制造业场景相关应用
无监督细粒度图像哈希技术在工业领域,特别是制造业领域,具有广泛的应用潜力。以下是几个具体的应用场景:1. 质量检测与缺陷识别:在制造业中,对于产品的缺陷检测是一个至关重要的环节。无监督细粒度图像哈希技术可以用于学习细粒度图像特征,从而在不依赖大量标注数据的情况下,自动识别产品中的微小缺陷,如裂纹、污点等。2. 零部件分类与检索:在自动化仓库或生产线中,快速准确地识别和检索特定的零部件是提升效率的关键。利用无监督细粒度图像哈希技术,可以实现对零部件的精细分类和快速检索,即使是在没有明确标签的情况下。3. 产品追踪与溯源:在复杂的生产流程中,对产品进行有效的追踪和溯源是非常重要的。通过无监督细粒度图像哈希技术,可以建立产品的唯一标识,即使在产品的外观相似度极高的情况下也能进行有效区分。4. 工艺流程监控:在制造过程中,对工艺流程的实时监控有助于及时发现问题并进行调整。无监督细粒度图像哈希技术可以应用于监控图像的分析,识别出工艺流程中的异常情况。5. 智能维护与预测性维修:通过对设备图像的无监督细粒度分析,可以实现对设备状态的实时监控和预测性维护,提前发现潜在的故障,避免生产中断。6. 定制化生产与个性化设计:随着消费者对个性化和定制化产品的需求增加,无监督细粒度图像哈希技术可以帮助制造商在缺乏明确分类标签的情况下,对用户上传的个性化设计进行快速理解和分类,进而实现快速响应和定制化生产。通过这些应用,无监督细粒度图像哈希技术可以帮助制造业提高生产效率、降低成本、提升产品质量,并最终实现智能制造的目标。