EANet: Enhancing Alignment for Cross-Domain Person Re-identification

1.2018年CVPR,中科院。論文地址:arxiv.org/abs/1812.1136源碼地址:github.com/huanghoujing2.背景:

人物重識別任務的工作機制:對訓練圖片提取特徵,使用交叉熵損失進行訓練,得到特徵提取器;對檢索圖像和圖像庫圖片計算相似度,然後對其排序。

目前面臨的問題:人物重識別在單個域上已經有比較好的效果,但是將其擴展到其他的域上性能就會降低,即人物重識別缺乏跨域的泛化性和對無標籤目標的適應性。產生這個問題的原因:人物重識別的零次訓練,即需要檢索的圖像在訓練集中一次也沒有出現;不同域的數據分布存在差異,例如數據集採集的時間不同導致的人物衣著不同等。目前解決這個問題的研究有:風格轉換,即將訓練數據集的風格轉換為目標域的風格來訓練,往往藉助GAN網路生成;目標域標籤估計,在目標域上通過聚類、貼偽標籤的方式得到偽監督訓練數據,然後微調ReID模型。現有的人物重識別和基於部分的對齊的研究方法:
  • 不需要關鍵點和分割信息的:2017年CVPR,Learning deep context-aware features over body and latent parts for person re-identification,提出STN;2017年ICCV,Deeply-learned part-aligned representations for person re-identification引入一個注意力模型來關注一些部分;2018年ECCV,Beyond part models: Person retrieval with refined part pooling。
  • 基於關鍵點和部分區域的:17年ICCV和18年CVPR有很多等等。

3.本文解決的問題

  • PCB:PCB是將圖像均勻水平分為P個條紋,然後對每一個part進行人物重識別,最後得到P個損失來優化,但是問題是由於人物在圖像中所佔的比例大小不同,導致分成的part不能很好的對齊。
  • 通過計算相鄰區域彙集的特徵相似性發現,從相鄰區域彙集的特徵有很大的相似性,主要原因是特徵本地化能力差和不同區域的特徵之間有冗餘。產生這個問題的原因可能是Conv5感受野比較大,每個部分的id約束比較強,每個部分提取出來的特徵必須具有足夠多的信息才可以滿足id分類的約束,區域劃分的越小,這種約束表現的更強,儘管獲得了強的特徵但是存在大量冗餘,本地化能力差。
  • 無標籤目標域對模型的適應性差。

4.本文的創新點

  • 基於PCB均勻水平分割圖像的缺陷,作者藉助人體姿態估計模型得到的關鍵點進行關鍵點分割區域。2014年ECCV的Microsoft coco: Commonobjects in context文章中提出了在COCO數據集上訓練的姿態估計模型。
  • 基於不同區域特徵的相似性大的問題,作者提出一種部分分割約束來提高特徵的本地化能力,具體來說就是藉助在COCO Densepose 數據集上訓練的偽分割標籤預測,預測圖像的part label實現part segmentation。2018年CVPR的Densepose: Dense human pose estimation in the wild文章中提出了在COCO Densepose數據集上的偽分割標籤預測。
  • 為了提高無標籤目標域的適應性,將無標籤目標域在部分分割約束模型上訓練。

5.關於PCB

給定輸入圖像I,送入卷積網路得到特徵圖G,對其分為P個部分。然後對每一個部分特徵進行pooling操作得到特徵g,之後使用嵌入層得到特徵向量e,然後將其送入分類網路識別出類別M。在PCB中使用交叉熵損失計算每一部分的損失,最後對所有部分求和得到最後的損失。在本文中也是藉助這種思想進行部分的人物重識別並考慮對齊和可視化。嵌入層:將輸入轉換為固定大小的向量。6.本文的方法詳細介紹

Part Aligned Pooling部分對齊池化
  • 為了實現部分對齊,提出一種關鍵點分割的彙集特徵。使用在COCO數據集上訓練好的姿態估計模型預測17個關鍵點,使用17個關鍵點確定9個區域,其中R1-R6是對應PCB的六個區域,R7、R8是上下區域,最後R9是整個人,後三個是對關鍵點預測缺失部分的補充。
  • 可能一些部分會被遮擋或者是檢測性能下降時會導致一些part不存在,那麼就使用零向量代替聚合後的向量,並且相應部分的損失不計算,其中損失計算方法和PCB一樣。

vp可以取0或者1,其中0是不可見該Part,1是該Part存在。

  • 在測試時,採用一種遮擋感知的方式進行計算相似性。如果被檢索的圖像中iPart不存在,那麼庫圖像中所有的iPart都不計算相似性,如果檢索圖像iPart存在,但是有些庫圖像的iPart不存在,那麼就這次不計算相似性。

Vqp可以取0或者1,其中0是不存在Part,1是都存在Part,最後求所有部分的餘弦相似性平均值。

Part Segmentation Constraint部分分割約束
  • 為了從不同區域提取到不同特徵,對行人進行細粒度的表徵,即希望每一個彙集的特徵有強的本地化能力和儘可能少的冗餘,提出了Part Segmentation,強迫預測part label。直覺解釋是,如果從Conv5每個空間位置的特徵可以區分出來其屬於哪個部件類別,那麼說明這些特徵是具有部件區分性的,也就是本地化能力強的。
  • 對Con5的特徵圖先上採樣再按照像素進行預測,這個過程中使用的偽Part label是使用在COCO Densepose數據集上預訓練好的Part Segmentation model預測的,然後在這個約束過程中作為標籤用來監督學習。
  • 實驗中預測了包括背景的K個部分,最後的損失是這K個部分的平均損失。

Multi-Task Training多任務的訓練為了提高無標籤目標域的適應性,我們對目標域進行Part Segmentation的訓練,最後的損失是:

λ1和λ2是用來平衡不同任務損失的,在實際實驗中都設為1了。

7.實驗結果和評估指標評估指標:Rank-1、Rank-n和mAP。

Rank-1:搜索結果中排名第一的正確率。

Rank-n:搜索結果中排名靠前的n個圖片的正確率。 例如: lable為m1,在100個樣本中搜索, 如果識別結果是m1、m2、m3、m4、m5……,則此時rank-1的正確率為100%;rank-2的正確率也為100%;rank-5的正確率也為100%; 如果識別結果是m2、m1、m3、m4、m5……,則此時rank-1的正確率為0%;rank-2的正確率為100%;rank-5的正確率也為100%; 如果識別結果是m2、m3、m4、m5、m1……,則此時rank-1的正確率為0%;rank-2的正確率為0%;rank-5的正確率為100%。mAP: AP衡量的是模型在單個類別(一個目標)上判斷結果的好壞,mAP衡量的是模型在所有類別上的效果好壞。 Precision(準確率) 和 Recall(召回率),準確率和召回率都是針對同一類別來說的,並且只有當檢索到當前類別時才進行計算: 準確率=提取出的正確信息條數 / 提取出的信息條數; 召回率=提取出的正確信息條數/樣本中的信息條數。

AP計算:

例如:在person re-id中,一個人的label為m1,在測試集中包含3張此人的圖像,檢索出來的圖像按照得分從高到低順序為m1、m2、m1、 m3、m4、m1….,此時: 第一次檢索到m1,提取出的正確信息條數=1,提取出的信息條數=1,樣本中的信息條數=3,正確率=1/1=100%,召回率=1/3=33.33%; 第二次檢索到m1,提取出的正確信息條數=2,提取出的信息條數=3,樣本中的信息條數=3,正確率=2/3=66.66%,召回率=2/3=66.66%; 第三次檢索到m1,提取出的正確信息條數=3,提取出的信息條數=6,樣本中的信息條數=3,正確率=3/6=50%,召回率=3/3=100%。 AP=(100%+66.66%+50%)/3=72.22% mAP計算:所有類別的AP的平均。PAP

PS

因為COCO數據集的部分標籤是準確的,因此對COCO數據集進行PS訓練,但是不再對源域數據集進行PS訓練,即對源域目標進行ReID預測和對COCO數據集進行PS預測,發現在單域上實驗效果下降,但是在跨域數據集上有提高。為了保持單個域的效果,我們將COCO數據集轉換為ReID的風格,然後再送入進行PS訓練,得到的實驗結果明顯改善。

實驗比較這個方法與現有的風格轉換和標籤估計的效果,證明我們方法的互補性。

實驗比較

8.參考筆記

pinggu.org/index.php?

blog.csdn.net/qq_282663

推薦閱讀:

相关文章