如何看待 CVPR2018 中 Person Re-Id 有论文在多数据集上训练，在单数据集上测试？

如题，例如这篇Human Semantic Parsing for Person Re-identification（链接）在10个数据集合并的训练集上训练，而在单一数据集上分别测试，取得了state-of-the-art 结果。
不只是CVPR2018，CVPR2017、ICCV2017等会以上也发现了若干类似的论文。
这样测试合理吗？

有益的一面来说，reid现在数据集除了duke都太小，数据量很大程度上制约了演算法的表现。所以多dataset一起train一定程度能缓解这个问题。更多数据能更好表现演算法的性能。

扯淡的一面来说，这都是某司和某某司开的一个坏头。用更多数据甚至是私有数据train出来的model跟别人比，我不知道这样写paper的意义在哪里。一个领域里一旦有人通过不公平的setting来刷分，还碰巧中了，后面的人基本就只能follow，有理也说不清了。

说到底，为什么detection segmentation没这种破事呢？原因还是reid没有一个像kaiming ross这样公认的强人制定规则，组织像imagenet或者coco这种大规模的公平的比赛。具体怎么样是骡子是马拉出来溜溜就知道了。

最近刚好看了这篇文章，过来答一下。

首先说，这么比肯定是不合理的，在我理解中，CV的比较试验一定要完全follow其他文章的protocol。想刷分可以，但至少要先证明相同的protocol下方法的有效性。如果非要用不一样的protocol，必须要在表格里标注并且在正文里给出合理的解释。

这篇文章我觉得最大的trick不在training augmentation，根据我的经验，简单的数据集堆积结果并不会有太大的提升，毕竟ReID每个数据集相差的非常大。今年CVPR收了好几篇pose或者segmentation based re-id论文，我觉得商汤的这片还是值得一看的「Eliminating Background-Bias for Robust Person Re-Identification」，一开始把Re-id背景的问题分析的很透彻（虽然在DL之前很多feature的文章已经对背景做过特殊处理了）。如果比较这两篇文章，你会发现网路结构大体相似，都是two streams，用segmentation做gating，基本网路也都是inception modules，而且segmentation的结果都差不多，可是在Market上居然有10%的差距。。。我猜可能是输入图像的大小带来的差别（商汤是96x96，UCF这个是512x170），可现在的问题就是，这么多的细节不一样，我怎么知道到底是哪里带来的效果差异。。。？

BTW，UCF的这个加上郑良老师的PCB基本上把Market做死了。。。大家移步Duke，Airport和MSMT17吧。。。

谢邀，我的多篇论文在review给出了accept的情况下，都被AC用一句话给拒了，这句话翻译下就是「不能在多个数据集上做训练，在一个数据集上做测试，这样对比不公平」

拒得很果断，所以做论文的时候尽可能用单数据集训单数据集测。state of the art虽然重要，但不是必要，公平的对比实验和对比结果更重要。

多数据集训，中了是运气，没中也正常，我以后打死也不敢用多数据集训了。当然，顶会的reid文章虽然数量很多，但质量和创新性也参差不齐，甚至我连屏蔽一些单位审稿人的邮箱都会出现系统错误的情况，也是神奇

不合理，这事在深度学习火起来之前都是投稿禁止的测试行为，可见现在会议审稿有多松，逐渐理解为啥国内只看高水平期刊了

这个问题在今年valse郑良博士专场的时候就想提问了。奈何没有抢到话筒。(￣□￣；)

个人认为，如果不在多数据集联合训练后在各个单数据集分别微调的话，多数据集联合训练不会带来"不当优势"。因为我觉得现在的行人重识别方法还重在建立数据集包含的摄像头之间的图片匹配模型(包括特征提取)，训练得到的匹配模型在其他的摄像头组合下效果会比较差。对于一数据集，如果用其他数据集扩充其训练数据，训练数据中新增加的摄像头组合会增加建立匹配模型的难度(要同时考虑更多摄像头)，又无益于提升测试分数(测试集只包含少数几个摄像头)。

打个比方，理科生高考不考政治历史地理。如果一个理科生花很多时间学习政治历史地理，这种行为很可能会拉低他的高考分数。当然，有"政史地也和理科有共通之处，相互之间相辅相成"这种说法和可能，但更可能的现实是"理科生要高考高分的话就不要学政史地了"。

但是，如果考虑人的全面发展的话，理科生也应当学政史地。

同理，如果以模型的应用性能而不是数据集跑分为目标，训练数据中应当包含尽可能多的摄像头。

以上为个人观点，缺乏充足实验数据支持，讲出来供大家探讨。

补充: 使用resnet等提特征是不是等于加入了imagenet数据做训练。

还有一篇论文叫 SphereReID据说也是这样子的

我觉得如果是多domain下训练，单一domain下测试的话，就一定要在论文中明确指明。而且在实验分析的时候，要严谨的分析。比如可以解释为什么多domain下学习的要比单一domain的要好，但是不能直接将多domain的效果强行加在自己的其他改动上，自对比一定要充分。

此外，确实感觉reid的有些论文在实验分析上不严谨，如部分最新的reid文章在CUHK-SYSU数据集上做了实验，但是在分析的时候，却和很多person search的方法进行了比较。这其实是不太公平的，因为person search是要完成行人检测和reid两个步骤，其输入的是正常监控图像（包含行人和背景），但reid是直接在GT上做实验。直观上感觉有很大的提升，但是源数据不太一样。

以上仅作为个人观点。

这不就是...迁移学习?

那在对比实验结果的时候，用多个数据集训练的结果是不是可以不用比较。

十个打一个，明显是在欺负人