点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达在夜间安防监控场景中,如何将红外相机捕捉的行人图像与可见光相机拍摄的同一目标进行精准匹配,一直是计算机视觉领域的研究难点。近日,发表于TPAMI 2025的最新研究《基于离群值过滤的双级匹配用于无监督可见光-红外行人重识别》提出了创新性解决方案,通过融合簇级与实例级匹配策略,在无标注数据条件下实现了可媲美有监督方法的识别性能。
论文信息
题目: Dual-Level Matching With Outlier Filtering for Unsupervised Visible-Infrared Person Re-Identification
基于离群值过滤的双级匹配用于无监督可见光-红外行人重识别
作者:Mang Ye, Zesen Wu, Bo Du
研究背景与挑战
可见光-红外行人重识别(VI-ReID)旨在跨模态检索相同身份的行人图像,在智能监控与公共安全领域具有重要应用价值。传统方法高度依赖大规模标注数据,而跨模态标签的获取成本极高,严重限制了实际部署。现有无监督方法存在两大核心局限:
模态差异显著:可见光图像包含丰富色彩信息,红外图像仅反映温度分布,两类数据的特征分布差异远大于类内差异(图1a)
跨模态对应关系挖掘不足:现有方法多依赖局部信息,未能充分利用全局关系,且难以处理簇数量不平衡问题(图1b)
论文创新性地提出双级匹配框架,通过全局与局部信息的有机融合,有效解决了无监督跨模态匹配的核心难题。
方法框架概述
该研究构建了包含四个核心模块的完整解决方案,整体架构如图3所示。框架以双对比学习(DCL)为基础,通过渐进图匹配(PGM)和最近实例-簇搜索(NICS)构建双层匹配机制,结合离群值过滤策略(OFS)和交替交叉对比学习(ACCL)实现模态不变特征的有效学习。
1. 双对比学习(DCL)
作为基础模块,DCL通过模态内对比学习构建初始特征表示。采用双流骨干网络提取特征,其中浅层为模态特定层,深层为共享层。通过ClusterNCE损失函数分别优化可见光、红外及增强图像的特征聚类,建立模态内记忆库并动态更新,为后续跨模态匹配奠定基础。
2. 渐进图匹配(PGM)
针对跨模态簇数量不平衡问题,PGM将匹配过程建模为二分图优化问题:
图构建:将两类模态的簇视为二分图节点,簇间相似度作为边权重
全局优化:采用匈牙利算法最小化全局匹配成本,生成初始匹配对
渐进策略:对未匹配簇动态重建子图并迭代匹配,直至所有簇找到对应关系(图4)
该方法通过全局视角挖掘跨模态关系,同时解决了簇数量不平衡导致的匹配不完整问题,实验表明其匹配准确率随训练进程稳步提升。
3. 最近实例-簇搜索(NICS)
为弥补PGM在实例级匹配的局限性,NICS从个体样本出发:
计算目标实例与所有跨模态样本的余弦相似度
选取相似度最高的前K个样本
以多数投票原则确定目标实例的跨模态簇标签
如图2所示,该策略有效缓解了错误聚类中噪声样本的影响,尤其适用于簇内存在异类样本的场景,在实例级匹配准确率上优于PGM。
4. 双级匹配与离群值过滤(DLM+OFS)
整合PGM的稳定性与NICS的精确性,DLM通过双重约束过滤不可靠样本:
双层匹配一致性约束:筛选PGM与NICS标签一致的样本
类内一致性约束:确保同一簇内样本的NICS标签多数一致
不符合约束的离群值被排除在跨模态记忆更新之外,有效避免噪声累积。实验证明,该策略使匹配准确率提升约5-8个百分点。
5. 交替交叉对比学习(ACCL)
为减轻噪声对应关系的影响,ACCL采用分阶段学习策略:
偶数轮次:仅优化可见光到红外的映射(V2R)
奇数轮次:仅优化红外到可见光的映射(R2V)
如图5所示,这种交替机制避免了双向损失对错误匹配的强化,使模型逐步建立可靠的跨模态关联,相比传统交叉对比学习(CCL)具有更稳定的收敛特性。
实验验证与分析
研究在SYSU-MM01和RegDB两大基准数据集上进行了全面评估,主要结果如下:
1. 性能对比
在SYSU-MM01全搜索模式下,该方法实现62.15%的Rank-1准确率和58.42%的mAP,超越所有现有无监督方法,且接近部分有监督方法(FMCNet、DART)。在RegDB数据集上,性能甚至超过部分有监督方法,验证了跨模态对应关系挖掘的有效性。
2. 消融实验
如表4所示,各模块贡献度分析表明:
PGM较基础匹配方法提升约7%
NICS在实例级匹配上优于PGM约3%
DLM结合两者优势,较单一方法提升5-6%
ACCL较传统CCL提升4%左右
3. 匹配准确率动态分析
图6显示,DLM的匹配准确率始终高于单一PGM或NICS,且随训练进程持续提升,证明了双级匹配与离群值过滤的协同效应。
结论与意义
该研究通过创新的双级匹配机制,首次实现了无监督VI-ReID性能与有监督方法的接近,其核心贡献在于:
提出PGM与NICS的双层匹配架构,兼顾全局关系与局部精细度
设计离群值过滤策略,有效抑制噪声样本影响
开发交替学习机制,减轻错误对应关系的累积效应
该方法无需任何跨模态标注,显著降低了实际应用门槛,为夜间安防、多模态监控等场景提供了切实可行的解决方案。未来研究可进一步探索动态场景下的鲁棒性提升及大规模部署优化。
下载1:OpenCV-Contrib扩展模块中文版教程 在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。 下载2:Python视觉实战项目52讲 在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。 下载3:人工智能0基础学习攻略手册 在「小白学视觉」公众号后台回复:攻略手册,即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。 交流群 欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~