Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-identification

局部可見感知模型——VPM

論文摘要

論文中考慮了行人重新識別(re-ID) 的一個現實問題,即局部行人重識別問題。在局部行人重識別場景下,需要探索資料庫圖像中包含整體人物的比例大小。如果直接將局部行人圖像與整體行人圖像進行比較,則極端空間錯位問題將顯著地損害特徵表徵學習的判別能力。針對這個問題,本文提出了一個局部可見感知模型(VPM),通過自監督學習感知可見區域內的特徵,來解決局部行人重識別問題。該模型利用可見感知的特性,能夠提取區域特徵並比較兩張圖像的共享區域(共享區域在兩張圖像上都是可見區域),從而局部行人重識別問題上取得更好的表現。總的來說,VPM 有兩大優勢:一方面,與學習全局特徵的模型相比,VPM 模型通過學習圖像區域特徵,能夠更好地提取一些細粒度特徵信息。另一方面,利用可見感知特徵,VPM 能夠估計兩個圖像之間的共享區域,從而抑制空間錯位問題。通過大量的實驗結果驗證,VPM 模型能夠顯著地改善特徵表徵的學習能力,並且在局部和整體行人重識別場景中,均可獲得與當前最先進方法相當的性能。

提出問題

行人再識別需要已經可以刷到很高的精度,但是現實中存在的問題依舊很多,比如遮擋、行人衣物的變換等。現在行人局部問題成為了時下比較流行的論文趨勢。本文提出了一個VPM自適應感知器,可以摒棄遮擋部分,只提取共同部分的特徵進行比較。如下圖所示,提取被遮擋的部分不僅在最終的特徵表示中起不到良好的效果,還會引入無用信息對結果進行幹擾。

解決問題

(非常巧妙,但是有些細節問題沒有看懂,歡迎留言)

本文基於以上想法,提出一個VPM自適應網路結構,如下圖所示,

具體步驟如下:

1,將一張行人的整體圖像分割成為幾個部分(以三個部分為例,你想分幾個部分都是可以設置的),再將局部圖像送入ResNet50網路中進行特徵提取,輸出特徵張量圖T

2,對T中的每一個像素g進行使用1×1的卷積核和Softmax函數進行預測,預測這個像素到底屬於整體圖像的哪個部分,得到三張概率

圖(對應整體圖像的三個部分)

3,(1)求概率圖上所有的概率求和,獲得分數C(可視分數),C越大表示這個map輸入整體圖像的哪個部分的概率就越大。

(2)特徵提取器,利用map和T加權求和,為每一個區域生成相應的特徵。

4,核心思想,如何計算共同區域實現分類呢?

Ci是包含第i部分的概率,Di是兩個圖片第i部分的距離。可以看出來,只要有一張圖片不含有第i部分(Ci很小),那麼Di對於距離的貢獻就非常小了,這樣便實現了這篇文章的核心思想。

實驗過程

(1)訓練部分

[1] 將對應的完整圖像提前設計好幾個部分,方便後面對T中的每個g

賦予標籤。

[2] 對完整的行人圖像隨機剪裁,再將剪裁後的圖像調整大小成H×W。(隨機剪裁可以排除一些具體設定),然後利用ROI將剪裁後的圖像投影到張量T上(文中有個具體的過程,但是不知道在說啥,不是說好用ResNet50進行特徵提取了嗎?)

[3] 損失函數主要是使用每個像素的交叉熵、每個部分的特徵向量預測行人身份的損失,以及三重損失,如下圖所示

利用VPM得到最後分數和特徵向量之後,利用每個區域的特徵向量分類損失和共同區域的三重損失進行訓練。整體損失是三個損失的和。

[4] 在Market-1501和DukeMTMC-reID上訓練,在partial re-ID 行人資料庫進行比較

最終結果

效果還是不錯的,比較靈活,詳細就見文章吧

感悟

這篇文章的精髓就在於可以自動識別共享區域,與局部分割相比做法簡單,節約計算成本。從一定程度上解決了空間失陪和圖像不完整的問題。去年18年有一個中科院的論文想法也是差不多,但是做法不太一樣,回去再看,補一篇隨筆。

僅是一點總結和想法,歡迎大家吐槽批評,做行人重識別方法的同學可以加個V:568111132,備註Re-ID(知乎),以此共勉。


推薦閱讀:
相關文章