论文:[1812.02162] Dissecting Person Re-identification from the Viewpoint of Viewpoint

数据:Dissecting Person Re-ID from the Viewpoint of Viewpoint

写在后面的话:这里介绍的是我们在 CVPR19 被接收的一篇研究行人重识别的论文。在该工作中,我们尝试从一个全新的角度来探索行人重识别任务,其主要研究为视觉因素变化如何影响行人重识别,通过利用合成数据对视觉因素量化来进行大量实验,总结,分析并得出一些有意思的结论。 我们希望这是从 what 到 how 的开始,可以让行人重识别的研究有更多维度。我们已将生成数据的源文件放出,希望对感兴趣的小伙伴有所帮助

1. 背景介绍

在计算机视觉的研究中,系统的鲁棒性非常重要。通常情况下,视觉因素(比如,背景,光照,遮挡等)的变化会引起计算视觉系统性能的波动。因此,出现了很多致力于如何减小视觉因素变化产生的影响的研究。对于行人重识别 (person re-identification,person re-ID) 这一视觉任务,最典型的视觉因素有:视角 [1],背景 [2],姿态 [3] 和光照等。那么,这些视觉因素的变化是如何影响行人重识别系统性能的呢?

论文 Dissecting Person Re-ID from the Viewpoint of Viewpoint 从行人视角(viewpoint) 这一因素出发,首次对影响行人重识别的视觉因素进行量化,分析和研究。

2. Motivation

研究上述问题的关键有以下几点:

  • 视觉因素标注 (除图像原有的label 即人物 ID 之外,视觉因素要有定性或者定量的标签)
  • 避免各视觉因素间的相互影响
  • 区分,量化单个视觉因素涵盖的各种情况

实践操作中,做到上述几点是极其困难的。需要收集大量不同情况下的图像,分文别类标注。因此如何获得数据是我们所面临的最大挑战。

虽然在行人重识别领域中已经有几个大规模公开可用数据集,如 Market-1501 [4] 和 DukeMTMC-reID [5], 但是这些数据集中视觉因素的分布是固定的,甚至是通常存在一定偏差。而收集新数据的代价又极其昂贵,同样也很难对变数进行控制和量化。

「既然没有办法改变世界,那么我们创造一个世界」。考虑到实际搜集图像的难度,为了更快、更准确地获得来自各种不同环境的图像,我们尝试创造了一个虚拟「世界」PersonX。

3. PersonX 介绍

图1 PersonX 中的背景和行人示例

PersonX 是基于游戏开发引擎Unity创建的一个3D数据合成系统,目前版本的情况如下:

  • 包含1,266个行人 (537个女性和791个男性)。人物的外观特点多样化,涵盖不同肤色,年龄,身体形态(胖,瘦,高,低)以及发型等。
  • 与真实世界中监控相机的部署情形一致,PersonX中相机的位置可以根据需要任意「摆放」,相机参数 (如像素)也可以灵活设置。
  • 视觉因素(如背景,光照,行人视角等)高度可控,因此可以支持量化视觉因素变化进行控制变数实验。目前,该引擎的相关数据已经公开在我们的数据主页。

4. 小试牛刀

基于该引擎,我们对行人视角(viewpoint)变化如何影响行人重识别进行了研究。其中,行人视角被定义为行人相对于相机的水平旋转角度,具体见下图。

图2 视角(viewpoint)定义示意图

4.1 实验平台评估

在利用 PersonX 数据集研究和分析行人视角变化对行人重识别的影响之前,我们首先对该数据集进行了评估。

图3 数据集评估实验结果

根据实验结果,我们总结出3个PersonX数据集特点:

  • 指示性:真实数据和合成数据上实验结果趋势是一致, 说明PersonX 具有和真实数据一样可以反映出不同演算法的性能好坏。
  • 纯净性:PersonX 数据集的结果普遍比真实数据高,因为在构造数据集时我们尽量减少因素变化的影响 (高像素,简单的背景,丰富的人物视角等)。
  • 敏感性:当一些因素发生变化时,实验结果会有明显的变化。比如将图像像素从 1024 	imes 768 变为 512 	imes 242 时 (见图3 B,PersonX..-lr), 三种方法的结果都有所下降,说明 PersonX 数据合成系统可以对环境变化做出相应的反映

前方为实验设置,结果和结论,其中结论以粗体列表形式标出

4.2 行人视角变化的影响

实验包含三个部分,分别讨论 training set, gallery 和query 中行人视角分布变化对于行人重识别结果的影响。以PCB演算法为基础,在合成数据 PersonX 和真实数据 Market-1203进行了对照组和实验组的实验。

4.2.1 Training Set 中的行人视角分布如何影响行人重识别模型训练?

gallery 和 query 保持不变的情况下,训练集中视角分布的不同的设置如下图。

图4 训练集包含不同行人视角分布时对照组和实验组设置。

图4以训练集包含两个 ID为例,当选1/2数据用于训练时对照组(control group)实验组为:

对照组1: 每个 ID 随机选18 (36 *1/2) 个视角

对照组2: 整个训练集随机选18 (36 *1/2) 个视角 (ID1,2所选视角相同)。

实验组 : 整个训练集连续的18视角 (ID1,2被选取的视角相同且连续。

图5 训练集合包含不同的视角分布时实验结果。

图5中,A 和 B 表示从 ID 的36个视角中选取特定的两类视角用于模型训练,C 表示选取一类。这里 「left」 对应图2中的 left orientation , 表示训练集中只有行人的左侧视角。D 表示训练集 ID 的视角逐渐减少时的结果。根据图中的结果,可以发现

  • 当训练集中缺少一些视角,特别是连续的视角时,模型的性能会受到影响
  • 当训练集只包含有限视角时,侧面视角(left 和 right)训练的模型比用前后视角(front 和 back)训练的模型具有更好地性能。

在下图中,我们给出了两类视角训练的模型的检索结果。

图 6 Market1203 检索可视化结果

4.2.2 Gallery 中 True Match 的视角的分布如何影响检索结果?

在训练集和 query 保持不变的情况下,去掉gallery 中的 true match的对照组和实验组的设置如下。

图 7 Gallery 中的视角分布对检索结果的影响

根据图 7结果可知:

  • 相比较对照组,实验组的结果都有所降低。说明与 query 视角不同的 true match 比 query 视角相似的 true match 更难检索
  • 当其他视觉因素更具有挑战性时,如背景复杂,解析度降低,上述问题对最终检索结果的影响就会变得更加明显

4.2.3 Query 图像的视角分布如何影响检索结果?

query 图像设置为包含特定的视角,依次检索人物视角为 0 到 350 图像。

图 8 Query 视角分布被设置为正左 (due left),正右,正前,正后,依次检索36个角度的结果。mean 为每种query 视角检索36种 true mach 结果的均值。 正左,正右,正前,正后作为 query 视角检索结果均值依次是93.8, 94.7 , 91.7 和 92.5

基于图8结果分析可知:

  • 在不确定待检索图像视角分布的情况下,以侧面作为检索图像时得到正确的检索结果的概率更大。

(更多详细内容、实验结果见论文和参考文献)

5. 总结

以行人视角为例,本文从一个新的角度对行人重识别进行了研究。我们希望可以从知道「什么(what) 视觉因素的变化会影响行人重识别系统」这一层面,逐步扩展到理解「这些视觉因素的变化如何 (How) 影响行人重识别系统」。通过对这一基本的问题的研究,有助于我们发现有意义的新问题,设计更鲁棒的行人重识别演算法和模型。目前该工作相关数据已公开,欢迎感兴趣的小伙伴下载使用,一起交流。


写在后面的话:因为我们也处在初步尝试和探索阶段,所以不可避免地会对一些问题思考不够全面。如果大家发现有不清楚的地方,请提出宝贵意见并与我们一起讨论,谢谢!

参考文献

  1. Srikrishna Karanam, Yang Li, and Richard J Radke. Person re-identification with discriminatively trained viewpoint invariant dictionaries. In ICCV, 2015
  2. Di Chen, Shanshan Zhang, Wanli Ouyang, Jian Yang, and Ying Tai. Person search via a mask-guided two-stream cnn model. In ECCV, 2018
  3. Liang Zheng, Yujia Huang, Huchuan Lu, and Yi Yang. Pose invariant embedding for deep person re-identification. arXiv preprint arXiv:1701.07732, 2017
  4. L. Zheng, L. Shen, L. Tian, S. Wang, J. Wang, and Q. Tian. Scalable person re-identification: A benchmark. In ICCV, 2015
  5. Z. Zheng, L. Zheng, and Y. Yang. Unlabeled samples generated by gan improve the person re-identification baseline in vitro. In ICCV, 2017
  6. Zhun Zhong, Liang Zheng, Zhedong Zheng, Shaozi Li, and Yi Yang. Camera style adaptation for person reidentification. In CVPR, 2018
  7. Alexander Hermans, Lucas Beyer, and Bastian Leibe. In defense of the triplet loss for person re-identification. arXiv preprint arXiv:1703.07737, 2017
  8. Yifan Sun, Liang Zheng, Yi Yang, Qi Tian, and Shengjin Wang. Beyond part models: Person retrieval with refined part pooling (and a strong convolutional baseline). In ECCV, 2018

推荐阅读:

相关文章