挑戰目標跟蹤演算法極限，商湯開源SiamRPN系列演算法解讀

商湯科技智能視頻團隊首次開源其目標跟蹤研究平臺 PySOT。PySOT 包含了商湯科技 SiamRPN 系列演算法，以及剛被 CVPR2019 收錄為 Oral 的 SiamRPN++。此篇文章將解讀目標跟蹤最強演算法 SiamRPN 系列。

背景

由於存在遮擋、光照變化、尺度變化等一些列問題，單目標跟蹤的實際落地應用一直都存在較大的挑戰。過去兩年中，商湯智能視頻團隊在孿生網路上做了一系列工作，包括將檢測引入跟蹤後實現第一個高性能孿生網路跟蹤演算法的 SiamRPN（CVPR 18），更好地利用訓練數據增強判別能力的 DaSiamRPN（ECCV 18），以及最新的解決跟蹤無法利用到深網路問題的 SiamRPN++（CVPR 19）。其中 SiamRPN++ 在多個數據集上都完成了 10% 以上的超越，並且達到了 SOTA 水平，是當之無愧的目標跟蹤最強演算法。

項目地址：https://github.com/STVIR/pysot

以上動圖中，紅色框是 SiamRPN++ 的跟蹤效果，藍色框是 ECCV 2018 上的 UPDT 的結果，可以看出 SiamRPN++ 的效果更佳，跟蹤效果更穩定，框也更準。從這個圖也可以看出跟蹤的一些挑戰：光照急劇變化，形狀、大小變化等。

SiamRPN (CVPR18 Spotlight)

在 CVPR18 的論文中（SiamRPN），商湯智能視頻團隊發現孿生網路無法對跟蹤目標的形狀進行調節。之前的跟蹤演算法更多的將跟蹤問題抽象成比對問題，但是跟蹤問題其實和檢測問題也非常類似，對目標的定位與對目標框的回歸預測一樣重要。

研究人員分析了以往跟蹤演算法的缺陷並對其進行改進：

大多數的跟蹤演算法把跟蹤考慮成定位問題，但它和檢測問題也比較類似，對目標的定位和對目標邊界框的回歸預測一樣重要。為此，SiamRPN 將跟蹤問題抽象成單樣本檢測問題，即需要設計一個演算法，使其能夠通過第一幀的信息來初始化的一個局部檢測器。為此，SiamRPN 結合了跟蹤中的孿生網路和檢測中的區域推薦網路：孿生網路實現對跟蹤目標的適應，讓演算法可以利用被跟蹤目標的信息，完成檢測器的初始化；區域推薦網路可以讓演算法可以對目標位置進行更精準的預測。經過兩者的結合，SiamRPN 可以進行端到端的訓練。
以往的濾波類的方法，沒辦法通過數據驅動的形式提升跟蹤的性能。而 SiamRPN 可以端到端訓練，所以更大規模的數據集 Youtube-BB 也被引入到了訓練中，通過數據驅動的形式提升最終的性能。