第二篇reviewer提到的論文,第一篇鏈接,將DTW用在視頻序列中,用於對齊序列確實是可取的一種方法,值得嘗試。

論文說明

首先作者因為原始的re-id僅僅考慮了空間外觀信息,而沒有考慮時空信息,其次使用昂貴的標籤信息是很難擴展到真實的相機場景中,因此作者這裡使用無監督的方法。通過改進的Time-Shift Dynamic Time Warping(TS-DTW)可以在視頻序列中實現自動對齊,從而相較於原始的不正確且不完整的序列能夠達到數據選擇和匹配的效果。

僅僅通過外觀特徵來解決行人重識別問題,會因為re-id固有的問題導致識別率不是很高,所以開始從其他方向考慮。視頻序列常被用來考慮分析行人的動作和活動識別,但是行為識別在本質上並不同於re-id。行為識別主要是判別兩個不同的行為,但是能夠容忍不同人有著相同的行為。但re-id則是判別不同的行人而不管人的行為。同時,行為識別一般都預定義好了那些行為,但是re-id則是根據已有的數據去識別新的場景下的人。

而步態識別與re-id相似,通過分析行人的步態信息來區別不同的人。但是步態識別要求精確的行人前景分割和正確的時序對齊,且遮擋等問題對步態的影響很大,所以步態信息也很難直接用在re-id上。

論文框架

作者認為基於視頻的序列需要利用其時空信息,所以提取局部時空動態信息來做RE-id。其主要的三個優點:

  1. 能夠明確的表示並建模局部時序運動信息;
  2. 方便實現不同視頻之間的時序對齊;
  3. 在無監督的情況下能夠實現數據驅動的選擇匹配功能。

作者基於如何提取豐富的行人行走的動態信息和如何抑制噪音等的負面影響出發構建了如上的系統。本文構建了無監督系統通過提取多尺度的時空結構信息,自動的對齊時序序列,並能夠自適應的選擇利用有價值的視覺信息。

Structured Video Representation

Video Sequentialisation

假定兩個視頻對 {(Q_i^p,Q_i^g)}_{i=1}^n 分別表示第i個人分別從p和g兩個相機下獲取的視頻序列,每個視頻是由一組連續的幀表示: Q={I_1,I_2,...} ,其中每個序列的長度是變化的,同時行走的周期數量不定而且開始和結尾狀態不定。

給出長度變化的兩個序列,如果直接匹配兩個序列是低效的。我們統一的將視頻Q劃分為多個時序局部切片,每個切片長度為l。不同的切片長度對應著不同的時間間隔。這樣一個視頻可以轉化為一個時空切片序列 S={s_1,s_2,...} .這種局部切片的好處是:

  1. 它保留了原始數據的形式
  2. 時序對齊更加的魯邦因為存在的很多的短的局部切片對應著各種行走狀態。
  3. 可以更好的選擇和利用具有信息的局部時空信息

Temporal Pyramid

因為行走風格的變化可能存在各種局部形式,因此使用固定長度的切片可能是次優的。因此使用時序金字塔結構來豐富特徵表達。

具體的,使用一組視頻切片長度來進行video sequentialisation:

L={2^0l,...,2^{(h_t-1)}l}

對應著 h_t 層的時序金字塔。給出一個視頻序列,我們在時序金字塔的每一層分別生成切片序列。這樣一共產生了 h_t 個切片序列 {S_i^l}_{l=0}^{h_t-1} 。如下圖所示:

因為長度是變化的,在sequentialising 視頻過程中,在時序金字塔的任何層,我們丟棄最後的幾張不滿足切片數量的幀。

Spatial Pyramid

行走風格一般對應著不同的身體局部行為,因此我們空間上講每個切片分為2*5的網格來近似身體所有部位的布局。如下圖所示:

高精確度的REID可能需要更精細的行人行走的空間結構信息,這樣可以提供更精細的信息。因此同樣採用空間金字塔的形式,對2*5的每個cell再細分為2*2的cell(作者認為這才是空間對齊匹配),這樣便可以產生40個cell,重複上述操作,便可以獲得 h_s 層的空間金字塔結構。與時序金字塔一起,便組成了我們的視頻表達Spatio-Temporal Pyramidal Sequence(STPS).

Localised Space-Time Descriptor

文章採用HOG3D提取視頻切片特徵,首先提取每個cell的梯度信息,然後將cell特徵連接合成切片的特徵(此處提示相鄰的cell有50%的重複度)。這樣每個 S={s_1,s_2,...} 獲得一個HOG3D特徵序列 X={x_1,x_2,...}

Unsupervised Video Matching

採用無監督的模型可以減少人工標註的工作量,同時在實際場景中的擴展能力更好。我們基於DTW模型推導出新的序列匹配演算法,Time Shift Dynamic time Warping(TS-DTW),進一步歸納出針對多維的TS-DTW。

Convolutional DTW

傳統的DTW用來度量兩個時序序列的相似性通過找到最優的規整路徑。給出兩個特徵序列 X^p={s_1^p,...s_i^p,...}和X^g={s_1^g,...s_i^g,...} ,定義規整路徑為:

W={w_1,...,w_d}

其中 w_k=(w_k^p,w_k^g) 表示 X^p 的第 w_k^p 個元素和 X^g 的第 w_k^g 個元素匹配。其中規整路徑的長度範圍為: max(|X^p|,|X^g|)le d<|X^p|+|X^g| .定義 X^p和X^g 的匹配距離為:

dist_{dtw}(X^p,X^g)=dfrac{1}{d}sum^d_{k=1}dist_{el}(x^p_{w^p_k},x^g_{w^g_k})

dist_{el}(,) 是兩個元素切片的距離度量,這裡採用了L1或者L2形式。d=|W|表示規整路徑。DTW的目標就是找到最優的規整路徑:

W^*=argmin_{win Omega}dist_{dtw}(X^p,X^g)

其中 Omega 表示所有可能的規整路徑,該優化方法可以通過dp演算法求得。通過上篇可看到DTW的三個約束。

但上述DTW假定開始和結束幀是對齊的,而且DTW利用了序列的所有元素,卻沒有考慮元素的質量問題,這樣得到的距離對噪音是敏感的。

Time Shift Driven Alignment and Selective Matching

為了克服傳統DTW的缺點,作者這裡引入時間偏移,通過在序列匹配中考慮時間偏移和最大池化來解決上述缺點。相比較於傳統的匹配,這裡作者執行迭代和局部匹配。如下圖所示:

給出兩個特徵序列 X^pX^g ,通過偏移其中一個序列(假定 X^p )來與另一個序列匹配,從開始位置( X^p 最右邊的切片和 X^g 最左邊切邊)到結束位置( X^p 最左邊切片和X^g 最右邊切片)。對於一個時間偏移,採用傳統的DTW計算。這樣可以獲得一組局部匹配距離 D={dist_{dtw}(X^p,X^g,Delta t)}_{Delta tin T} .最終將所有的局部全部考慮取最小的:

dist_{ts}(X^p,X^g)=min_{Delta tin T}{dist_{dtw}(X^p,X^g,Delta t)}

文章中提到這個time shift ensemble模型是受神經網路的最大池化層想到的。因為類似最大池化具有選擇數據的能力。

作者認為這種操作具有如下優點:

  1. 自動的選擇開始和結束的行走狀態
  2. 可以嘗試多個局部的匹配

Generalisation to the Multi-Dimensional Setting

上述的討論TS-DTW模型是基於單個的feature-sequence,我們實際的視頻是多維的。維度由時序金字塔( h_t )和空間金字塔( h_s )決定,總共的維度為 h_t*h_s 。因為時序金字塔每個切片的長度不同,所以同一個視頻的不同時序維度上長度不同。因此作者從兩個方面來考慮多維序列結合:dependent,independent。

Dependent fusion

dependent fusion策略假定(1)給出的視頻的特徵序列在不同的維度有相同的長度(2)不同的維度是強烈相關的,即他們的規整路徑應該是相同的。

根據第一個條件,這種方式的結合只能在空間金字塔上進行,時序金字塔因為每個視頻得到的切片序列個數不同,長度是不同的。所以只能每一個時序層結合 h_s 層空間金字塔。

匹配相同的時序層 S^p={s_1^p,...s_i^p,...}和S^g={s_1^g,...s_j^g,...} ,通過利用所有維度的特徵數據來計算距離:

dist_{el}^D(s_i^p,s_j^g)=sum_{k=1}^nalpha_k*dist_{el}(x_{(i,k)}^p,x_{(j,k)}^g)

x_{(i,k)}^p和x_{(j,k)}^g 對應著 s_i^p和s_j^g 的第k維的特徵數據,n表示所有維度數量, alpha_k 定義第k維的權值,由空間金字塔的層數決定。

alpha_k=2^{varepsilon_k}

varepsilon_kin [0,1,...,h_s-1] 表示空間金字塔層數。

通過上述方式將單個維度擴展到多維的場景,該模型稱為「 	extbf{MDTS-DTW_D} 」.

Independent fusion

獨立的融合則是從時序金字塔考慮,作者認為該策略在各自的維度有著不同的序列結構更加的靈活。通過考慮時序結構,並將所有的維度融合得到最終的匹配距離:

dist^I(Q^p,Q^g)=sum_{k=1}^neta_k*alpha_k*dist_k(Q^p,Q^g)

其中 eta_k=2^{t_k},t_kin {0,1,...,h_t-1} 表示時序金字塔層。 dist_k(Q^p,Q^g) 使用TS-DTW模型求解。這個模型叫著「 	extbf{MDTS-DTW_I} 」.

Person Re-Identification

針對probe Q^p 和一組gallery G={Q_i^g} ,用TS-DTW, MDTS-DTW(D,I)計算probe和每個gallery的基於時空特徵的距離。這樣可以得到距離 {dist^{st}(Q^p,Q^g_i)}_{i=1}^{|G|} .

同時作者將自己的特徵計算出的距離與其他的空間特徵距離結合:

dist^{fused}(Q^p,Q_i^g)=dist^{st}(Q^p,Q_i^g)+sum_kc_k*dist^{sp}_k(Q^p,Q_i^g)

在最後的計算上,作者對距離做了歸一化處理,假定匹配距離為: dist^*in{dist^{st},dist_1^{sp},...dist_k^{sp},...} ,那麼歸一化處理為:

widehat{dist}^*(Q^p,Q_i^g)=dfrac{dist^*(Q^p,Q_i^g)}{max({dist^*(Q^p,Q_i^g)}_{i=1}^{|G|})}

最終的融合距離為:

widehat{dist}^{fused}(Q^p,Q_i^g)=widehat{dist}^{st}(Q^p,Q_i^g)+sum_kwidehat{dist}^{sp}_k(Q^p,Q_i^g)

Experimental Settings and results

文章中做了很多實驗,主要是在prid2011和ilids這兩個資料庫,因為作者是無監督的方法,所以訓練集直接拋棄,作者只使用了測試機,一些結果如下:

文章各個部分實驗:

無監督方法:

監督方法:

推薦閱讀:

相关文章