如何看待 CVPR2018 中 Person Re-Id 有論文在多數據集上訓練，在單數據集上測試？

如題，例如這篇Human Semantic Parsing for Person Re-identification（鏈接）在10個數據集合併的訓練集上訓練，而在單一數據集上分別測試，取得了state-of-the-art 結果。
不只是CVPR2018，CVPR2017、ICCV2017等會以上也發現了若干類似的論文。
這樣測試合理嗎？

有益的一面來說，reid現在數據集除了duke都太小，數據量很大程度上制約了演算法的表現。所以多dataset一起train一定程度能緩解這個問題。更多數據能更好表現演算法的性能。

扯淡的一面來說，這都是某司和某某司開的一個壞頭。用更多數據甚至是私有數據train出來的model跟別人比，我不知道這樣寫paper的意義在哪裡。一個領域裡一旦有人通過不公平的setting來刷分，還碰巧中了，後面的人基本就只能follow，有理也說不清了。

說到底，為什麼detection segmentation沒這種破事呢？原因還是reid沒有一個像kaiming ross這樣公認的強人制定規則，組織像imagenet或者coco這種大規模的公平的比賽。具體怎麼樣是騾子是馬拉出來溜溜就知道了。

最近剛好看了這篇文章，過來答一下。

首先說，這麼比肯定是不合理的，在我理解中，CV的比較試驗一定要完全follow其他文章的protocol。想刷分可以，但至少要先證明相同的protocol下方法的有效性。如果非要用不一樣的protocol，必須要在表格裏標註並且在正文裏給出合理的解釋。

這篇文章我覺得最大的trick不在training augmentation，根據我的經驗，簡單的數據集堆積結果並不會有太大的提升，畢竟ReID每個數據集相差的非常大。今年CVPR收了好幾篇pose或者segmentation based re-id論文，我覺得商湯的這片還是值得一看的「Eliminating Background-Bias for Robust Person Re-Identification」，一開始把Re-id背景的問題分析的很透徹（雖然在DL之前很多feature的文章已經對背景做過特殊處理了）。如果比較這兩篇文章，你會發現網路結構大體相似，都是two streams，用segmentation做gating，基本網路也都是inception modules，而且segmentation的結果都差不多，可是在Market上居然有10%的差距。。。我猜可能是輸入圖像的大小帶來的差別（商湯是96x96，UCF這個是512x170），可現在的問題就是，這麼多的細節不一樣，我怎麼知道到底是哪裡帶來的效果差異。。。？

BTW，UCF的這個加上鄭良老師的PCB基本上把Market做死了。。。大家移步Duke，Airport和MSMT17吧。。。

謝邀，我的多篇論文在review給出了accept的情況下，都被AC用一句話給拒了，這句話翻譯下就是「不能在多個數據集上做訓練，在一個數據集上做測試，這樣對比不公平」

拒得很果斷，所以做論文的時候儘可能用單數據集訓單數據集測。state of the art雖然重要，但不是必要，公平的對比實驗和對比結果更重要。

多數據集訓，中了是運氣，沒中也正常，我以後打死也不敢用多數據集訓了。當然，頂會的reid文章雖然數量很多，但質量和創新性也參差不齊，甚至我連屏蔽一些單位審稿人的郵箱都會出現系統錯誤的情況，也是神奇

不合理，這事在深度學習火起來之前都是投稿禁止的測試行為，可見現在會議審稿有多松，逐漸理解為啥國內只看高水平期刊了

這個問題在今年valse鄭良博士專場的時候就想提問了。奈何沒有搶到話筒。(￣□￣；)

個人認為，如果不在多數據集聯合訓練後在各個單數據集分別微調的話，多數據集聯合訓練不會帶來"不當優勢"。因為我覺得現在的行人重識別方法還重在建立數據集包含的攝像頭之間的圖片匹配模型(包括特徵提取)，訓練得到的匹配模型在其他的攝像頭組合下效果會比較差。對於一數據集，如果用其他數據集擴充其訓練數據，訓練數據中新增加的攝像頭組合會增加建立匹配模型的難度(要同時考慮更多攝像頭)，又無益於提升測試分數(測試集只包含少數幾個攝像頭)。

打個比方，理科生高考不考政治歷史地理。如果一個理科生花很多時間學習政治歷史地理，這種行為很可能會拉低他的高考分數。當然，有"政史地也和理科有共通之處，相互之間相輔相成"這種說法和可能，但更可能的現實是"理科生要高考高分的話就不要學政史地了"。

但是，如果考慮人的全面發展的話，理科生也應當學政史地。

同理，如果以模型的應用性能而不是數據集跑分為目標，訓練數據中應當包含儘可能多的攝像頭。

以上為個人觀點，缺乏充足實驗數據支持，講出來供大家探討。

補充: 使用resnet等提特徵是不是等於加入了imagenet數據做訓練。

還有一篇論文叫 SphereReID據說也是這樣子的

我覺得如果是多domain下訓練，單一domain下測試的話，就一定要在論文中明確指明。而且在實驗分析的時候，要嚴謹的分析。比如可以解釋為什麼多domain下學習的要比單一domain的要好，但是不能直接將多domain的效果強行加在自己的其他改動上，自對比一定要充分。

此外，確實感覺reid的有些論文在實驗分析上不嚴謹，如部分最新的reid文章在CUHK-SYSU數據集上做了實驗，但是在分析的時候，卻和很多person search的方法進行了比較。這其實是不太公平的，因為person search是要完成行人檢測和reid兩個步驟，其輸入的是正常監控圖像（包含行人和背景），但reid是直接在GT上做實驗。直觀上感覺有很大的提升，但是源數據不太一樣。

以上僅作為個人觀點。

這不就是...遷移學習?

那在對比實驗結果的時候，用多個數據集訓練的結果是不是可以不用比較。

十個打一個，明顯是在欺負人