Deep Learning for Person Re-identification:A Survey and Outlook阅读笔记-平芜编程栈

Deep Learning for Person Re-identification:A Survey and Outlook

深度学习用于行人重识别：综述与展望

参考阅读：TPAMI2021深度学习行人重识别综述与展望

笔记

Re-ID技术的五大步骤

1）数据采集，一般来源于监控摄像机的原始视频数据；

2）行人框生成，从视频数据中，通过人工方式或者行人检测或跟踪方式将行人从图中裁切出来，图像中行人将会占据大部分面积；

3）训练数据标注，包含相机标签和行人标签等其他信息；

4）重识别模型训练，设计模型（主要指深度学习模型），让它从训练数据中尽可能挖掘“如何识别不同行人的隐藏特征表达模式”；

5）行人检索，将训练好的模型应用到测试场景中，检验该模型的实际效果。

本文将ReID技术分为 Closed-world 和Open-world 两大子集

Closed-world Re-ID

根据方法设计流程，将其分为特征学习，度量学习和排序优化三个部分

特征学习方法：

全局特征学习，利用全身的全局图像来进行特征学习，常见的改进思路有Attention机制，多尺度融合等；
局部特征学习，利用局部图像区域（行人部件或者简单的垂直区域划分）来进行特征学习，并聚合生成最后的行人特征表示；
辅助特征学习，利用一些辅助信息来增强特征学习的效果，如语义信息（比如行人属性等）、视角信息（行人在图像中呈现的不同方位信息）、域信息（比如每一个摄像头下的数据表示一类域）、GAN生成的信息（比如生成行人图像）、数据增强等；
视频特征学习：利用一些视频数据提提取时序特征，并且融合多帧图像信息来构建行人特征表达
特定的网络设计：利用Re-ID任务的特性，设计一些细粒度，多尺度等相关的网络结构，使其更适用于Re-ID的场景。

度量学习方法

早期的度量学习主要是设计不同类型的距离/相似度度量矩阵。深度学习时代，主要包括不同类型的损失函数的设计及采样策略的改进：

Identity Loss将Re-ID的训练过程当成图像分类问题，同一个行人的不同图片当成一个类别，常见的有Softmax交叉熵损失函数；
Verification Loss将Re-ID的训练当成图像匹配问题，是否属于同一个行人来进行二分类学习，常见的有对比损失函数，二分类损失函数；
Triplet Loss将Re-ID的训练当成图像检索问题，同一个行人图片的特征距离要小于不同行人的特征距离，以及其各种改进；
训练策略的改进自适应的采样方式（样本不均衡，难易程度）以及不同的权重分配策略

排序优化

用学习好的Re-ID特征得到初始的检索排序结果后，利用图片之间的相似性关系来进行初始的检索结果优化，主要包括重排序（re-ranking）和排序融合（rank fusion）等

数据集与评价指标

11个图像数据集（VIPeR [31]、iLIDS [167]、GRID [168]、PRID2011 [126]、CUHK01-03 [43]、Market-1501 [5]、DukeMTMC [42]、Airport [169] 和 MSMT17 [44]）

7个视频数据集（PRID-2011 [126]、iLIDS-VID [7]、MARS [8]、Duke-Video [144]、Duke-Tracklet [170]、LPW [171] 和 LS-VID [136]）

评价指标。

为了评估Re-ID系统，目前广泛使用的两个指标是CMC曲线（Cumulative Matching Characteristics）[68] 和mAP（mean Average Precision）[5]。

CMC-k（又称Rank-k匹配准确率）[68] 表示正确匹配出现在检索结果前k名中的概率。CMC适用于每个查询只有一个真实匹配的情况，因为它只考虑第一个匹配结果。然而，在大规模摄像头网络中，图库集通常包含多个真实匹配，CMC无法全面反映模型在多匹配场景下的判别能力。
mAP[5] 是另一个指标，用于衡量多个真实匹配下的平均检索性能。它最初广泛用于图像检索任务，在Re-ID中，它可以解决两个系统可能在找到第一个真实匹配方面表现相同，但在检索其他更难匹配的目标时表现不同的问题。

考虑到训练Re-ID模型的效率与复杂度，近期一些工作 [138]、[139] 也报告了**FLOPs（每秒浮点运算次数）**和网络参数量作为评估指标。这两个指标在训练/测试设备计算资源受限时尤为关键。

对当前最优方法的深入分析

局部特征学习有助于提升判别性：近年来大多数 SOTA 方法都采用“局部+全局”特征融合策略

注意力机制显著提升性能：注意力可建模通道间、特征图间、层次间、身体区域间甚至图像间的关系

多损失函数训练提升模型性能：不同损失函数从不同角度优化网络，组合使用可带来性能提升

时空建模至关重要：所有取得最佳性能的方法（如 STA [135]、STC [20]、GLTR [136]）都设计了时空特征聚合策略。与图像 Re-ID 类似，跨帧注意力机制 [110]、[135] 也显著提升了判别能力。文献 [20] 还提出利用多帧信息自动补全遮挡区域，为应对遮挡问题提供了新思路。

Open-World Re-ID

根据Re-ID系统设计的五个步骤，本章节也从以下五个方面介绍：1）多模态数据，所采集的数据不是单一的可见光模态；2）端到端的行人检索（End-to-end Person Search）,没有预先检测或跟踪好的行人图片/视频；3）无监督和半监督学习，标注数据有限或者无标注的新场景；4）噪声标注的数据，即使有标注，但是数据采集和标注过程中存在噪声或错误；5）一些其他Open-set场景，查询行人找不到，群体重识别，动态的多摄像头网络等。

多模态（异构）数据

基于深度图像Re-ID：旨在利用深度图信息的匹配（融合或跨模态匹配），在很多人机交互的室内场景应用中非常重要；
文本到图像Re-ID；旨在利用文字语言描述来搜索特定的行人图像，解决实际场景中查询行人图像缺失等问题；
可见光到红外Re-ID：旨在跨模态匹配白天的可见光图像到夜晚的红外行人图像，也有一些方法直接解决低照度的重识别任务；
跨分辨率Re-ID；不同高低分辨率行人图像匹配，旨在解决不同距离摄像头下行人分辨率差异巨大等问题

总体而言，异构的行人重识别问题需要解决的一大难题是不同模态数据之间的差异性问题

端到端Re-ID（End-to-end Person Search）

纯图像/视频的Re-ID；从原始raw 图像或者视频中直接检索出行人；
多摄像头跟踪的Re-ID；跨摄像头跟踪，也是很多产业化应用的重点。

半监督和无监督的Re-ID

为了缓解对标注数据的依赖，半监督和无监督/自监督现在成为了当前研究的热点，在CV顶会上呈爆炸之势。本文也主要分成两个部分：无监督Re-ID（不需要标注的源域）和无监督域自适应Re-ID（需要标注的源域数据或模型）：

无监督Re-ID主要包括一些跨摄像头标签估计（聚类或图匹配等）的方法，以及一些其他监督信息挖掘的方法（如local patch相似性等）；
无监督域自适应Re-ID包括一些目标域图像数据生成和一些目标域监督信息挖掘等方式。

噪声鲁棒的Re-ID

主要针对标注数据或者数据采集中产生的一些噪声或错误等，方法包括：

Partial Re-ID解决行人图像区域部分被遮挡的行人重识别问题；
Noise Sample主要针对行人图像或视频中检测、跟踪产生的错误或偏差
Noise Label主要针对行人标签标注产生的错误

Open-set Re-ID and Beyond

主要针对一些其他开放场景进行一些探讨，如1）gallery set 中query 行人没有出现的场景；2）Group Re-ID:行人群体匹配的问题；3）动态的多摄像头网络匹配等问题

新的评价指标mINP

mINP主要目的是为了衡量Re-ID算法用来找到最难匹配样本所要付出的代价

AI总结

一句话核心
本文系统梳理了“闭世界”行人重识别（Re-ID）已达性能瓶颈后，向“开世界”迁移所面临的五大真实挑战，并给出统一强基线 AGW 与新指标 mINP，为社区提供继续突破的路线图。

研究动机与意义
理论：闭世界设定在多个基准上已趋饱和，但真实部署仍远未实用，亟需把“实验室问题”升级为“开放系统问题”。
现实：智慧城市、跨镜追踪、安防应急等场景对“即插即用、鲁棒、可扩展”的 Re-ID 需求迫切，却受限于标注成本、域漂移、遮挡、模态差异等因素。

技术路线

问题解构：将 Re-ID 系统拆成 5 步（采集→检测→标注→训练→检索），对应 5 大开世界缺口（异构数据、端到端、弱标注、噪声、开集）。
综述-实验闭环：先对 200+ 文献做元分析，再统一实现 12 套数据集、4 类任务（图像/视频/跨模态/遮挡）的强基线 AGW（非局部注意力 + GeM 池化 + 加权三元组）。
提出新指标 mINP（mean Inverse Negative Penalty），衡量“找到最难正样本”的代价，补充 CMC/mAP 的盲区。

关键发现