Unsupervised Re-Id by Soft Multilabel Learning

簡介:

　　這是一篇19年CVPR的跨域無監督Re-ID論文，在Market1501和DukeMTMC-reID上分別達到了67.7%和67.1%的rank-1精度，算是一篇將準確度刷得比較高的論文了，在這篇論文中主要是偏重了loss函數的設計而非網路結構，所以理解起來還是有一定難度的，下面就來一探它的奧秘。

主要工作:

在對無標註的目標域數據打偽標籤時不適用onehot這樣的硬值，而是將目標域無標籤人物身份表示為與一組額外數據集中已知標籤人物的相似度（軟多標籤），這篇論文將額外數據集（類似源域的概念）的有標籤行人叫做參考人物
利用外觀特徵與軟多標籤之間的一致性進行困難負樣本挖掘
因為行人重識別的一個setting是跨攝像頭匹配，所以引入了約束來保持軟多標籤在不同視角相機下保持一致性
引入參考代理學習來將每一個代理人在聯合嵌入中表示為一個參考代理

方法：

下面就來看看作者是怎麼來實現他說的這幾點

1.問題定義

我們有目標數據集 $mathcal{X}=left{x_{i} ight}_{i=1}^{N_{u}}$ ，還有一個輔助數據集 $mathcal{Z}=left{z_{i}, w_{i} ight}_{i=1}^{N_{a}}$ ，這裡的 $z_{i}$ 代表每一個人物圖片， $w_{i}$ 是對應的標籤， $N_{a}$ 是輔助數據集的大小。注意這裡的目標域數據集和輔助數據集的人物是完全不重疊的。

2.軟多標籤

軟多標籤其實就是學習一個映射函數 ,對於所有的參考人物有 $y=l(x, mathcal{Z}) in(0,1)^{N_{p}}$ ，所有維度的總和加起來等於1.同時在軟多標籤的指導下，我們還希望學習到一個有區分力的嵌入，同時要求 $|f(cdot)|_{2}=1$ 。作者還引入了一個參考代理的概念即 $left{a_{i} ight}_{i=1}^{N_{p}}$ 。（這個會放到後面說，暫時可以就認為它是輔助數據集中一個參考人（這個人有多張圖片）的特徵表達），同時有 $|a_i|_{2}=1$ .（ $N_{a}$ 是圖片張數， $N_{p}$ 是行人個數）。

因為對於軟多標籤y來說，它的所有維度之和為1，所以可以使用如下定義：

$y^{(k)}=lleft(f(x),left{a_{i} ight}_{i=1}^{N_{p}} ight)^{(k)}=frac{exp left(a_{k}^{mathrm{T}} f(x) ight)}{sum_{i} exp left(a_{i}^{mathrm{T}} f(x) ight)}$

這裡的就是參考代理了。

3.困難負樣本挖掘

困難負樣本挖掘對於學習到有區分力的特徵是很有效的。在無標註的目標域上面因為缺少ID所以困難負樣本的判斷成了一個問題。作者做了一個這樣的假設：如果一對樣本擁有很高的特徵相似度 $f(x_i)^{T}f(x_j)$ ，那麼我們就認為這是一對相似樣本，如果相似樣本的其他特性也相似，那麼它很可能是一個正樣本，反之就是一個負樣本。這裡就把軟多標籤當作是其他特性。接著提出如下的相似度定義，使用的是逐元素的交運算，最後可以簡化成使用距離進行表示。

$Aleft(y_{i}, y_{j} ight)=y_{i} wedge y_{j}=Sigma_{k} min left(y_{i}^{(k)}, y_{j}^{(k)} ight)=1-frac{left|y_{i}-y_{j} ight|_{1}}{2}$

其實這裡的物理意義相當於每個代理人在進行投票，對這一對圖像是否屬於同一個人進行表決。作者做了如下的公式化：

$egin{aligned} mathcal{P} &=left{(i, j) | fleft(x_{i} ight)^{mathrm{T}} fleft(x_{j} ight) geq S, Aleft(y_{i}, y_{j} ight) geq T ight} \ mathcal{N} &=left{(k, l) | fleft(x_{k} ight)^{mathrm{T}} fleft(x_{l} ight) geq S, Aleft(y_{k}, y_{l} ight)<T ight} end{aligned}$

上式中的是一個代表比例的參數，對於未標註的目標域來說將有個圖像對，我們認為其中個是有著最高的特徵相似度的，同理有個是有著最高的軟標籤相似度的。這裡的就是的位置處對應的閾值了。多標籤引導的有區分力嵌入學習就被定義為：

$L_{M D L}=-log frac{overline{P}}{overline{P}+overline{N}}$

其中：

$egin{aligned} overline{P} &=frac{1}{|mathcal{P}|} Sigma_{(i, j) in mathcal{P}} exp left(-left|fleft(z_{i} ight)-fleft(z_{j} ight) ight|_{2}^{2} ight) \ overline{N} &=frac{1}{|mathcal{N}|} Sigma_{(k, l) in mathcal{N}} exp left(-left|fleft(z_{k} ight)-fleft(z_{l} ight) ight|_{2}^{2} ight) end{aligned}$