選自arXiv,作者:Yixiao Ge、Zhuowan Li、Haiyu Zhao等,機器之心編譯,參與:李詩萌、張倩。

行人圖像的姿勢變化是行人重識別(reID)任務中的重要挑戰之一。本文提出了一個 reID 新框架——FD-GAN,來學習與身份相關而與姿勢無關的表徵,用於姿勢不同的行人重識別。與現有的對齊或基於區域的學習方法相比,該框架不需要額外的輔助姿勢信息和計算成本,在三個廣泛使用的行人重識別數據集中都取得了當前最優結果。

引言

行人重識別(reID)是一項極具挑戰性的任務,該任務以在多個攝像頭拍攝出來的圖像中識別相同行人為目標。隨著深度學習方法的廣泛使用,reID 的性能藉助不同的演算法得到快速提高。在用深度神經網路學習表徵的問題上大家做了各種嘗試,但姿勢變化、圖像模糊以及目標遮擋等問題仍對學習判別式特徵提出了巨大的挑戰。解決這些問題有兩類方法,對齊行人圖像 [1] 或通過學習身體區域的特徵整合行人的姿勢信息 [2]。但這些工作在推斷階段也需要輔助的姿勢信息,這樣就限制了演算法在沒有姿勢信息的情況下泛化新圖像的能力。與此同時,由於對姿勢估計的推斷更複雜了,計算成本也隨之增加。

在圖像生成方面,生成式對抗網路(GAN)受到了越來越多的關注。近期,也有一些工作將 GAN 的潛力用在現有的 reID 演算法中。Zheng 等人 [3] 提出一個半監督架構,利用離羣值的標籤平滑正則化(LSRO)學習生成的圖像。還有用於彌合不同數據集間領域差距的 PTGAN[4]。除了圖像合成,GAN 也可以用在表徵學習中。我們在本文中提出了一個身份相關的新表徵學習框架,來實現魯棒的行人重識別。

本文提出的特徵提取生成式對抗網路(FD-GAN)在姿勢改變的情況下還能保持身份特徵的連續性(如圖 1 所示),但推斷複雜性並沒有增加。該架構採用了 Siamese 架構學習特徵。每一個分支中都有一個圖像編碼器和圖像生成器。圖像編碼器輸入給定輸入圖像中的行人視覺特徵。圖像生成器根據姿勢信息和編碼器中輸入的行人特徵生成了新的行人圖像。框架中集成了多個判別器,分辨通過兩個分支生成的圖像之間的分支內和分支間關係。

圖 1:在姿勢引導的圖像生成器和判別器的幫助下訓練得到的 FD-GAN 中的圖像編碼器,以學習魯棒的身份相關和姿勢相關表徵。它在推斷時不需要姿勢信息和額外的計算成本。

身份判別器、姿勢判別器和驗證分類器連同重建損失以及全新的同姿勢損失一起正則化特徵學習過程,來實現魯棒的行人重識別。根據對抗損失,可以通過圖像編碼器在視覺特徵中減少姿勢和背景這種與身份判斷無關的信息。更重要的是,在推斷過程中,不再需要額外的姿勢信息以及額外的計算成本。在三個廣泛使用的 reID 數據集(即 Market-1501[5]、CUHK03[6] 和 DukeMTMC-reID[7])中,我們的方法比之前的方法都要好。

總體而言,本研究做出了以下貢獻:1)我們提出了一個新的框架,FD-GAN,來學習與身份相關而與姿勢無關的表徵,用於姿勢不同的行人重識別。與現有的對齊或基於區域的學習方法不同,我們的框架不需要額外的輔助姿勢信息,在推斷過程中也不需要增加計算的複雜程度。2)儘管在我們的框架中,行人圖像生成是輔助任務,但是通過該框架生成的行人圖像的質量比現有的行人圖像生成方法所生成的圖像都要好。3)在行人重識別任務中,本文提出的 FD-GAN 在 Market-1501[5],CUHK03[6] 以及 DukeMTMC-reID[7] 數據集上都取得了當前最佳的表現。

圖 2:FD-GAN 的 Siamese 架構。利用驗證損失,通過圖像編碼器 E 學習魯棒的身份相關而姿勢無關的特徵,而生成假圖像的輔助任務是為了騙過身份和姿勢判別器的。引入新的同姿勢損失項是為了進一步促進對與身份相關而與姿勢無關的視覺特徵的學習。

論文:FD-GAN: Pose-guided Feature Distilling GAN for Robust Person Re-identification

論文鏈接:arxiv.org/pdf/1810.0293

摘要:行人重識別(reID)是一項重要的任務,它需要在給定目標行人圖像的基礎上從圖像數據集中提取出行人圖像。為了學到魯棒的行人特徵,行人圖像的姿勢變化是重要的挑戰之一。現有的針對該問題的工作要麼是對齊行人圖片,要麼是基於行人區域學習表徵。而在推斷時一般也會需要額外的姿勢信息和計算成本。為瞭解決這一問題,本文提出了特徵提取生成對抗式網路(FD-GAN)來學習和身份相關而和姿勢無關的表徵。這是一個基於 Siamese 架構的新框架,該框架中有多個新的判別器來判別行人的姿勢和身份。除了判別器,還集成了新的同姿勢損失,這就需要生成相同行人表現相似的圖像。在通過姿勢引導學習了與姿勢無關的行人特徵後,在測試時不再需要輔助的姿勢信息和額外的計算成本。我們提出的 FD-GAN 在三個行人重識別數據集中都取得了當前最佳的結果,這說明本文提出的 FD-GAN 可以提取高效而魯棒的特徵。

與 DR-GAN[20] 比較

基於條件 GAN 的 DR-GAN[20] 也試著在面部識別任務中學習姿勢變化的身份表徵。它也用了一個帶有判別器的編碼器-解碼器架構用來對兩種身份進行分類。第 4.2 節中的結果證明,在行人重識別任務中,本文提出的方法比 DR-GAN 要好。

有三點重要差異導致 FD-GAN 比 DR-GAN 效果更好。1)我們用了 Siamese 網路架構,這使我們可以利用同姿勢損失鼓勵編碼器只對身份相關的信息進行編碼,而 DR-GAN 則沒有這個損失項。2)我們不在圖像編碼器和身份判別器中的 ResNet-50 網路間共享權值。我們觀察到,身份驗證和真/假圖像身份判別是兩個不同領域的任務,因此不能共享它們的權重。3)我們的 Siamese 架構用了驗證分類器,而不是交叉熵分類器,在行人重識別任務中,這樣可以得到比單分支網路更好的性能。

表 1:FD-GAN 在 Market-1501[5] 和 DukeMTMCreID[7] 數據集上的組分分析。表中標出了最高的準確率(%)和 mAP(%)。

表 2:本文提出的方法和當前最佳方法在 Market-1501[5]、CUHK03[6] 以及 DukeMTMC-reID[7] 數據集上的實驗結果比較。表中標註了最高的準確率(%)和 mAP(%)。

圖 3:(a)生成器 G 和圖像編碼器 E 的網路架構;(b)驗證分類器 V 的網路架構;(c)身份判別器 Did 的網路架構;(d)姿勢判別器 Dpd 的網路架構。


推薦閱讀:
相關文章