本文介紹我們最新的工作EANet: Enhancing Alignment for Cross-Domain Person Re-identification

代碼公佈在:

huanghoujing/EANet?

github.com
圖標

簡介

單域(single-domain)的行人重識別(ReID)近來已經取得了巨大的進展,但是在跨域(cross domain,或者遷移,transfer)問題上卻存在很大的困難,主要體現在(1)直接把訓好的模型到目標域(target domain)測試,性能有巨大的下降;(2)利用無id標註的目標域圖片進行領域適應(domain adaptation)具有其挑戰性。這篇文章中,我們發現部件對齊在跨域重識別中起著重要的作用。通過強化模型的對齊,我們一方面提高模型的泛化性能(generalization),提升模型直接跨庫測試的性能;另一方面,我們的部件對齊模型可以很自然地利用目標域無標籤數據,實現領域自適應(adaptation),使得模型可以適配目標域。我們在Market1501,CUHK03,DukeMTMC-reID,MSMT17四個目前最大的行人重識別資料庫之間進行大量的跨域實驗,證明瞭我們方法的有效性,並且取得了state of the art的結果。同時,出於完整性,我們還實驗證明瞭和現有跨域方法的互補性。

整體模型框圖

圖1:模型的主要特點是部件對齊池化(PAP: Part Aligned Pooling)、每個部件的id約束、部件分割(PS: Part Segmentation)約束,並且在訓練階段同時利用源域(有id標註)和目標域(無id標註)的圖片

基於區域池化的ReID模型

ECCV18 state-of-the-art的工作PCB [1]給我們的啟發是,提取局部區域的特徵、並且每個區域都施加id約束,這樣能夠訓練出判別性很強的模型。因此,我們也採用這種局部特徵+每個區域id約束的方式。

部件對齊池化(PAP: Part Aligned Pooling)

圖2:(a)PCB池化的區域,(b)本文池化的區域,(c)本文使用的關鍵點

PCB的做法是在特徵圖上把一個圖片均分成P塊,如圖2中(a)所示。顯而易見,這種方式對於檢測器的定位偏差是很不魯棒的。我們的做法是根據關鍵點的位置(關鍵點檢測模型在COCO上訓練),將身體劃分成P個區域,具體如圖2(b)所示。我們最終的模型使用的是9個區域,如圖1中左下角。在和PCB的對比實驗中,出於公平,我們只使用R1~R6六個區域。

部件對齊池化後,所接的嵌入層、分類器、softmax loss的做法和PCB保持一致。

部件分割約束(PS Constraint)

我們採用局部區域池化的方式提取特徵,初衷是從不同區域提取到不同的特徵,對行人進行細粒度的表徵。但是,我們發現不同區域提取出來的特徵(特別是相鄰區域)具有很高的相似度。另外,我們還發現,把遮擋掉一半(上半部或下半部)的圖片送進網路,基於部件的模型(PCB、我們的PAP)Conv5的特徵在被遮擋區域仍有很大的響應。我們猜測原因(1)Conv5的神經元感受野超級大;(2)每個部件的id約束非常強,從每個部件區域提取出來的特徵必須具備足夠多的信息才能滿足id分類的約束。因此,從一個部件區域池化得到的特徵很可能表示好幾個部件的特徵。區域劃分得越小,則每個區域的id約束越是加重了這個問題。

存在這個問題的模型,雖然也能提取到多個判別性很強的特徵,但是我們覺得失去了定位能力的特徵(1)對於部件對齊的性能還是有折扣,(2)不同區域得到的特徵之間冗餘度較高。

為了讓模型從一個區域池化得到的特徵盡量以這個區域為重點,降低部件之間的冗餘度,我們在嘗試了各種方法無果之後,提出在Conv5的特徵圖上施加部件分割的約束。直覺解釋是,如果從Conv5每個空間位置的特徵可以區分出來其屬於哪個部件類別,那麼說明這些特徵是具有部件區分性的。我們很簡單地在Conv5的特徵上加一個部件分割的小模塊(Part Segmentation Head)來達到這個目的。PS模塊由一個stride=2的3x3反捲積層和一個1x1的卷積層組成。為了得到部件分割的監督信號,我們在COCO上訓練了一個部件分割模型,然後在ReID資料庫上進行預測,得到部件偽標籤,如圖3所示。

圖3:(a)COCO上的部件標註(b)訓好的分割模型在ReID資料庫上預測的偽標籤

部件分割約束實現領域自適應

加了部件分割模塊之後,我們的模型可以看成雙流的多任務模型,我們自然而然可以想到把部件分割約束施加到無id標註的目標域圖片上。這樣做的好處是,一方面模型見過目標域的圖片,在訓練階段就能起到一定的領域適應的作用;另一方面,保證了模型在目標域圖片提取特徵時的定位和對齊。

多任務、多域訓練

源域的圖片可以同時進行ReID、部件分割訓練,目標域圖片只能進行部件分割訓練。訓練階段,我們的學習率、迭代次數、優化器等優化設置保持和單獨訓ReID的情況一致。源域batch和目標域batch分開前傳,但是源域ReID損失、分割損失的梯度,和目標域分割損失的梯度相加後再一起更新模型。

實驗:部件對齊的作用

表格1:部件對齊對跨域的作用

我們對比PAP-6P和PCB,其中PAP-6P的訓練和測試階段都是在圖1中R1~R6區域池化得到6個特徵,其它訓練、測試設定和PCB一致。PAP-6P和PCB在源庫上性能相當,但是對跨庫有很大的提升,比如在M->D上Rank-1提高了4.7個點。說明瞭對齊的特徵提取對模型的泛化性能(generalization)有很大的幫助。

PAP在訓練和測試階段使用了圖1中R1~R9共9個區域,PAP比PAP-6P在CUHK03上Rank-1有3.9%的提升。我們後續的實驗都是基於PAP。

實驗:部件分割約束的作用

圖4:部件之間的特徵相似度

在PAP的基礎上,增加部件分割約束的模型記為PAP-S-PS(模型只見過源域圖片),對目標域和源域都施加分割約束的模型記為PAP-ST-PS。我們把PCB、PAP、PAP-S-PS、PAP-ST-PS幾個模型的部件特徵cosine相似度(測試集上的統計值)計算出來,如圖4。我們看出,部件對齊的池化、部件分割約束都明顯降低了部件之間特徵的相似度。我們相信這也意味著降低了特徵的冗餘和混淆。

表格2:部件分割約束的作用(PAP-S-PS-SA這一項得看論文具體解釋)

PAP、PAP-S-PS、PAP-ST-PS三個模型的分數對比見表格2。

可以看出,PAP-S-PS比PAP在源域上有稍微提升,對跨域有很大提升,比如M->D的Rank-1提升了5個點。這體現了模型泛化性能(generalization)的提升。

另外,比較PAP-S-PS和PAP-ST-PS,我們看出對目標域圖片的分割約束進一步提升了跨域性能,比如M->D的Rank-1,PAP-ST-PS比PAP-S-PS提升了4.7個點。這體現了目標域圖片部件分割約束作為領域適應(adaptation)的有效性。

圖5:目標域部件分割約束的直觀效果

從圖5中,我們也可以看出目標域圖片部件分割約束的直觀效果。PAP-S-PS模型沒有見過目標域圖片,因此在目標域預測的分割結果有很多雜訊、殘缺,而PAP-ST-PS見過目標域圖片,明顯改善了這個問題。

實驗:在MSMT17上訓練

上面提到的實驗,我們在MSMT17(目前最大的Image-based ReID數據集)上也進行了訓練。可以得到和上面一致的結論。分數見表格3。

表格3:在MSMT17上訓練

實驗:COCO提供的部件分割約束

表格4:COCO提供的部件分割約束的作用

我們甚至嘗試把COCO的部件分割約束加入到模型的訓練中,其中一個考慮是COCO的部件標籤是準確的。具體做法是,我們在訓練PAP模型的時候,同時訓練COCO圖片的部件分割,但是不對ReID圖片訓練部件分割,模型記為PAP-C-PS。因此模型優化的是ReID圖片的ReID約束,以及COCO圖片的分割約束。根據表格4,比較PAP、PAP-C-PS,我們發現COCO圖片的加入降低了源庫的性能,但是跨庫的分數有非常大的提升,比如PAP-C-PS比PAP在M->D的Rank-1提升了7.9個點。

這說明瞭我們在實際應用中,甚至可以把公開的通用的部件分割資料庫(如COCO、Pascal Part、LIP)作為模型訓練的一部分數據,提升模型部件對齊的能力,這無疑是比較可喜的一點。

另外,如果想要讓模型在加了COCO圖片後,在源庫和目標庫都保持較高的性能,我們建議把COCO圖片轉換成ReID圖片的風格,然後把原始COCO圖片、新風格的COCO圖片都加到模型訓練中。我們把這個方法記為PAP-StC-PS,記錄在表格4中。

實驗:和現有跨域方法的互補性

現有跨域方法的主流做法包括(1)風格遷移。利用GAN把源域的圖片轉換成目標域的風格,然後在這些生成的圖片上訓練ReID模型。(2)預測偽標籤(CFT: Clustering-and-FineTuning)。利用源域訓好的ReID模型,在目標域上通過聚類、貼偽標籤的方式得到偽監督訓練數據,然後微調ReID模型。

(1)風格遷移的方法。ReID模型本身性能越好(只要求源域內測試性能高,不要求跨庫性能高),則在風格化後的圖片上訓練ReID模型,自然能夠得到更好的模型。然後,由於圖片是目標域風格的,所以跨域性能自然更好。

(2)預測偽標籤的方法。ReID模型的跨域性能越好,那麼模型在目標域的初始狀態越好,聚出來的類別越加純凈,越有利於模型的微調。

因此,從理論上來說,源域、跨域都更好的ReID模型,和這兩種已有跨域方法就很自然地是互補的。出於完整性,我們也實驗證明瞭和現有跨域方法SPGAN [2](Simon4Yan/Learning-via-Translation)、DomainAdaptiveReID [3](LcDog/DomainAdaptiveReID)的互補性。注意,出於簡單、清晰對比的考慮,我們只使用DomainAdaptiveReID中聚類的方法和閾值選擇的方法,不採用re-ranking距離,也不採用隨機擦除數據擴增,而且在目標域微調時,我們保持本文提出的模型結構,而不採用triplet loss微調。

實驗分數如表格5所示。其中PCB-SPGAN、PAP-S-PS-SPGAN指的是,我們訓練PCB、PAP-S-PS的時候,採用風格後的圖片,這利用的是風格化的方法使得模型在訓練階段見過目標域的分佈。PAP-ST-PS-SPGAN表示訓練PAP-ST-PS的時候,源域的圖片用的是風格後的圖片,這綜合利用了「優化目標域圖片分割約束」、「風格化」兩種方法使得模型在訓練階段見過目標域的分佈。PAP-ST-PS-SPGAN-CFT指的是,利用訓練好的PAP-ST-PS-SPGAN模型作為初始化,在目標域執行聚類、貼偽標籤、監督訓練的任務。

表格5:和現有跨域方法的互補性

根據表格5,(1)比較PAP-S-PS-SPGAN和PAP-ST-PS,前者是利用風格遷移讓模型訓練階段見過目標域分佈,後者是利用對目標域圖片分割約束讓模型見過目標域分佈,可以看出兩者性能相當。另外,當我們的方法和SPGAN結合時,分數提升很多。(2)我們沒有做實驗對比不同模型進行Clustering-and-FineTuning(CFT)的效果,只證明瞭我們的方法和CFT的互補性。

State-of-the-art的性能:單域

我們和state-of-the-art的單域方法(single-domain)性能比較如表格6,可以看出,我們的分數達到了state-of-the-art。

表格6:單域的state of the art

State-of-the-art的性能:跨域

我們和state-of-the-art的跨域方法性能比較如表格7,可以看出,我們的分數也達到了state-of-the-art。

表格7:跨域的state of the art

結論

本文主要驗證了部件對齊在跨域ReID中的重要作用。我們提出的部件對齊池化、源域圖片部件分割約束顯著提高了模型的泛化性能(generalization),同時我們提出的目標域圖片分割約束起到了有效的領域自適應作用(domain adaptation)。另外,和現有方法的互補性也得到了實驗論證。

將來工作

(1)我們的實驗證實了,部件分割和ReID是兩個互相兼容的任務,因此下一步將考慮兩個任務的共同訓練,去掉對額外的分割模型的需求,提高效率。(2)嘗試利用部件分割結果來池化提取部件特徵,去除關鍵點檢測模型,提高效率。(3)我們的模型可以使得Conv5的特徵保持定位能力,我們相信這對於更困難的問題:部分人ReID(Partial ReID)也具有很大的幫助,因此後續會在這個問題上進行更多的探索。

實現細節

我們所有模型的池化都是max pooling。ReID的數據擴充只有訓練時的flipping。GlobalPool的embedding size是512,其它模型的embedding size是256。測試用的ReID特徵是embedding輸出的特徵。(後續將會考慮warmup、triplet loss、cropping等)。更多細節見代碼,以及文章。

代碼

我們完備、規整的代碼已經開源huanghoujing/EANet,包括文章幾乎所有的實驗、數據、訓練好的模型等。代碼基於pytorch 1.0.0,同時具有較高的擴展性,歡迎讀者的關注。希望閱讀完此文的你能給我們一個star!

引用

[1] Y. Sun, L. Zheng, Y. Yang, Q. Tian, and S. Wang. Beyond part models: Person retrieval with refined part pooling. In ECCV, 2018.

[2] W. Deng, L. Zheng, G. Kang, Y. Yang, Q. Ye, and J. Jiao. Image-image domain adaptation with preserved selfsimilarity and domain-dissimilarity for person reidentification. In CVPR, 2018.

[3] L. Song, C. Wang, L. Zhang, B. Du, Q. Zhang, C. Huang, and X. Wang. Unsupervised domain adaptive re-identification: Theory and practice. arXiv, 2018.


推薦閱讀:
相關文章