Progressive Learning for Person Re-Identification With One Example

1.2019年IEEE图像处理会刊,悉尼科技大学博士生武宇(Yu Wu)

论文链接:yu-wu.net/pdf/TIP2019_O

2.背景

人物重识别任务近几年出现了一些半监督、无监督的方法,很多半监督的学习关注于One Example Learning,这很好的降低了完全监督的方法需要标注信息带来的标注成本。现有的One Example方法中往往采用静态策略分配为标签,即每一次迭代分配的伪标签数量是固定不变的,但是模型在迭代开始时只有很少的带标签数据,随著迭代的进行,模型变得更加鲁棒,预测的伪标签也更加准确,所以固定分配数量的方法会妨碍性能的提升。基于这一点,作者在他以往的工作:Exploit the Unknown Gradually: One-Shot Video-Based Person Re-Identification by Stepwise Learning(EUG)中提出了动态采样策略进行改进,这篇文章是继EUG这篇文章之后发表的一篇文章,并对其进行了改进。

3.本文的研究方法

作者提出了一种基于图像的one-example人物重识别,对于每一个身份的训练图像,只有一个有标签样本,其余都是无标签的。在训练的过程中采用动态渐进的方式给无标签数据分配伪标签,对于剩余无标签数据以其图像索引分配索引标签,因此训练数据包括三部分:有标签数据,伪标签数据和索引标签数据。

主要的突破点:

  • 不同与EUC,对于每个身份,训练数据只有一个图形,而不是一个踪迹。
  • 联合学习的方式,对标签数据、伪标签数据和索引标签数据同时训练。
  • 因为初始模型不可靠,提出以自我监督的方式利用未标记数据来学习稳健的模型。
  • 初始迭代时大量数据没有分配标签,但是这些数据也保留了有用信息,所以对于未分配的数据分配索引标签,然后使用exclusive loss来学习每个样本的区分性和多样性。
  • 在标签估计中应用基于距离的采样标准,并应用候选人选择以显著提高标签估计的性能。未标记数据与其最近标记邻居之间的距离被认为是dissimilarity cost,它是伪标签的可靠性度量,候选者选择则根据他们的标签估计置信度选择一些最可靠的伪标记数据。

4.本文方法详细介绍

Framework Overview

  • 本文的方法是以下两个步骤的迭代:首先,通过对标记数据,伪标记数据和索引标记数据的联合学习来训练CNN模型; 然后,根据进行标签估计,按照候选人选择的标准选出一些可靠的伪标签候选者。
  • 具体而言就是,第一次迭代时没有伪标签数据,随著训练的进行,不断扩大所选择的伪标签候选集,并使用数据索引标记剩余的为标记数据作为索引标签数据。然后,采用联合学习在标签数据、伪标签数据和索引标签数据上学习一个稳健的模型,在下一次迭代时,将最近标记邻居的身份标签分配给伪标签候选者,之后迭代训练。

Preliminaries

x是图像的视觉信息,y是图像的标签;标签数据 L=left{ (x_{1},y_{1}),...,(x_{nl},y_{nl}) 
ight} 和无标签数据U=left{ x_{n_{l}+1} ,..., x_{n_{l}+n_{u}}
ight};Re-ID模型 phi(	heta:·) ;检索数据 x_{q} ,图库数据 x_{g} ;伪标签 ar{y_{i}} ,伪标签数据集 S^{t} ,索引标签数据集 M^{t}

The Joint Learning Method

  • 利用 LS^{t}数据集使用标签,采用交叉熵损失来优化学习Re-ID模型;M^{t}数据集因为没有可用的伪标签,为了学习图像的多样性和提高模型的判别性,使用Exclusive Loss来推远各个样本进行优化。
  • The Joint Objective Function,LS^{t}数据集使用交叉熵损失学习。标签数据训练的目标函数是:

其中 f(w:·) 是一个 w 参数化的标识分类器,将嵌入特征 phi(	heta;x_{i}) 分类为k维信度估计。类似的,伪标签数据训练的目标函数是:

其中需要注意的是, s_{i}inleft{ 0,1 
ight} 是一个选择标识,用来标识无标签数据 x_{i} 是否选为伪标签数据集。

  • The Exclusive Loss,对于没有身份的数据,不适用任何标签信息学习其多样性和判别性,而不是身份信息。推远各个索引标签数据。

为了实现这个公式的有效性,作者提出了一个查找表 V ,用来存放所有的索引标签数据嵌入特征phi(	heta;x_{i})的L2标准化特征,最大化欧氏距离就等价于最小化余弦相似性,所以使用softmax损失来近似优化:

其中,在前向传播时,通过 V^{T}ar{phi}(	heta;x_{i}) 来计算数据与所有索引标签数据之间的余弦相似度,在反向传播时,通过v_{i}leftarrowfrac{1}{2}(v_{i}+ar{phi}(	heta;x_{i}))来更新查找表。(这个思想在很多论文中出现)

  • 模型第t次迭代的总体损失为:

The Effective Sampling Criterion

  • 作者的思想是将特征空间中的欧式距离作为伪标签可靠性的度量标准。
  • 使用最近邻分类器NN,将特征空间中最近标记的邻居为每个未标记的数据分配伪标签,然后计算他们之间的欧氏距离作为标签的置信度(它们之间的dissimilarity cost)。

  • 对于候选标签选择,根据置信度选择最可靠的伪标签数据。

其中, M_{t} 是在t次迭代中选择的伪标签数据的数量。

The Overall Iteration Strategy

  • 首先优化总体损失函数,然后通过计算欧式距离估计伪标签,最后按照候选标签选择最可靠的标签数据为伪标签数据。
  • 作者采用动态采样策略,在第t次迭代时,通过设置 m_{t}=m_{t-1}+p·n_{u} 来扩大样本伪标记数据的大小,其中p∈(0,1)表示迭代过程中扩大候选集速度的放大因子。
  • 在每次迭代之后,在验证集上评估Re-ID模型,并输出最好的模型。

5.实验结果

Comparison With the State-of-the-Art Methods

在四个数据集上做了实验,并且设置了两种baseline:one-example和supervised。

Ablation Studies

  • The effectiveness of the joint learning method

研究联合学习的有效性,D表示没有使用dissimilarity cost,但是是在三个数据集上优化的;J表示没有使用索引标签数据,只用了标签数据和为标签数据,最后一行是本文采用的联合学习方式。

  • The effectiveness of the sampling criteria

从下图以及上图都可以看出来dissimilarity cost的作用以及p扩大因子的选择对实验结果的影响。

Algorithm Analysis

  • Analysis over iterations:选择最可靠的无标签数据作为伪标签数据。
  • Analysis on the enlarging factor

控制在迭代期间放大伪标签候选者的速度。由下图可以看出,较小的放大因子总会产生更好的性能,这和人类视觉是一致的,每一次选择更谨慎,获得的效果就越好。

  • Qualitative Analysis

作者将每一次迭代选择的伪标签图像可视化出来,可以看出开始的时候选择了与输出样本视觉上非常近的简单样本,随著迭代进行,选择的样本更加多样性,并且还出现了一些错误的样本。

与在MARS数据集上先进的方法比较:通过注释更多标记数据进行初始化,比较了不同比例的实验结果。

与在Market-1501数据集上先进的方法比较:比较了不同标记数据比例的实验结果。

6.参考笔记

blog.csdn.net/NGUever15

tongtianta.site/paper/4


推荐阅读:
相关文章