高精確度的REID可能需要更精細的行人行走的空間結構信息,這樣可以提供更精細的信息。因此同樣採用空間金字塔的形式,對2*5的每個cell再細分為2*2的cell(作者認為這才是空間對齊匹配),這樣便可以產生40個cell,重複上述操作,便可以獲得 層的空間金字塔結構。與時序金字塔一起,便組成了我們的視頻表達Spatio-Temporal Pyramidal Sequence(STPS ).
Localised Space-Time Descriptor
文章採用HOG3D提取視頻切片特徵,首先提取每個cell的梯度信息,然後將cell特徵連接合成切片的特徵(此處提示相鄰的cell有50%的重複度)。這樣每個 獲得一個HOG3D特徵序列 。
Unsupervised Video Matching
採用無監督的模型可以減少人工標註的工作量,同時在實際場景中的擴展能力更好。我們基於DTW模型推導出新的序列匹配演算法,Time Shift Dynamic time Warping(TS-DTW),進一步歸納出針對多維的TS-DTW。
Convolutional DTW
傳統的DTW用來度量兩個時序序列的相似性通過找到最優的規整路徑。給出兩個特徵序列 ,定義規整路徑為:
其中 表示 的第 個元素和 的第 個元素匹配。其中規整路徑的長度範圍為: .定義 的匹配距離為:
是兩個元素切片的距離度量,這裡採用了L1或者L2形式。d=|W|表示規整路徑。DTW的目標就是找到最優的規整路徑:
其中 表示所有可能的規整路徑,該優化方法可以通過dp演算法求得。通過上篇可看到DTW的三個約束。
但上述DTW假定開始和結束幀是對齊的,而且DTW利用了序列的所有元素,卻沒有考慮元素的質量問題,這樣得到的距離對噪音是敏感的。
Time Shift Driven Alignment and Selective Matching
為了克服傳統DTW的缺點,作者這裡引入時間偏移,通過在序列匹配中考慮時間偏移和最大池化來解決上述缺點。相比較於傳統的匹配,這裡作者執行迭代和局部匹配。如下圖所示:
給出兩個特徵序列 和 ,通過偏移其中一個序列(假定 )來與另一個序列匹配,從開始位置( 最右邊的切片和 最左邊切邊)到結束位置( 最左邊切片和 最右邊切片)。對於一個時間偏移,採用傳統的DTW計算。這樣可以獲得一組局部匹配距離 .最終將所有的局部全部考慮取最小的:
文章中提到這個time shift ensemble模型是受神經網路的最大池化層想到的。因為類似最大池化具有選擇數據的能力。
作者認為這種操作具有如下優點:
自動的選擇開始和結束的行走狀態
可以嘗試多個局部的匹配
Generalisation to the Multi-Dimensional Setting
上述的討論TS-DTW模型是基於單個的feature-sequence,我們實際的視頻是多維的。維度由時序金字塔( )和空間金字塔( )決定,總共的維度為 。因為時序金字塔每個切片的長度不同,所以同一個視頻的不同時序維度上長度不同。因此作者從兩個方面來考慮多維序列結合:dependent,independent。
Dependent fusion
dependent fusion策略假定(1)給出的視頻的特徵序列在不同的維度有相同的長度(2)不同的維度是強烈相關的,即他們的規整路徑應該是相同的。
根據第一個條件,這種方式的結合只能在空間金字塔上進行,時序金字塔因為每個視頻得到的切片序列個數不同,長度是不同的。所以只能每一個時序層結合 層空間金字塔。
匹配相同的時序層 ,通過利用所有維度的特徵數據來計算距離:
對應著 的第k維的特徵數據,n表示所有維度數量, 定義第k維的權值,由空間金字塔的層數決定。
表示空間金字塔層數。
通過上述方式將單個維度擴展到多維的場景,該模型稱為「 」.
Independent fusion
獨立的融合則是從時序金字塔考慮,作者認為該策略在各自的維度有著不同的序列結構更加的靈活。通過考慮時序結構,並將所有的維度融合得到最終的匹配距離:
其中 表示時序金字塔層。 使用TS-DTW模型求解。這個模型叫著「 」.
Person Re-Identification
針對probe 和一組gallery ,用TS-DTW, MDTS-DTW(D,I)計算probe和每個gallery的基於時空特徵的距離。這樣可以得到距離 .
同時作者將自己的特徵計算出的距離與其他的空間特徵距離結合:
在最後的計算上,作者對距離做了歸一化處理,假定匹配距離為: ,那麼歸一化處理為:
最終的融合距離為:
Experimental Settings and results
文章中做了很多實驗,主要是在prid2011和ilids這兩個資料庫,因為作者是無監督的方法,所以訓練集直接拋棄,作者只使用了測試機,一些結果如下:
文章各個部分實驗:
無監督方法:
監督方法:
推薦閱讀: