在做论文的时候，用到了两个不同的数据集，模型要分别对两个数据集调参么？

我的论文里用到了两个不同的数据集，是要在两个数据集上分别调参么？还是在一个数据集上调过了在另外一个数据集拿过来直接用就好了？我看其他的论文用到两个数据集的有很多，但是好像很少有说明有不同超参数的啊

谢邀。

题主提到是两个不同的数据集，而不是某一数据集的 100k 与 1M 的不同 release。

这里建议题主先对两个数据集的构建情况进行了解，接著对数据集的数据分布情况进行了解，这样才能初步了解两个数据集之间的异同点。如果两个数据集几乎相同，那分别调参并在论文中陈述时，我作为读者，会在心中画上一个小小的问号 ?

如果数据集较为不同，例如题主 model 的 motivation 是想要解决 baseline 的 Multi-domain 问题，那么对于不同的数据集去调整部分参数，例如 dropout ratio 与 teacher forcing ratio 等等，取得 sota 的结果以辅证题主 model 结构设计的合理性与性能的优越性，题主的论文会更加令人信服 o(￣▽￣)ｄ

谢邀。

对的要调，在每个数据集上达到最好表现就行了。不然这丹也太好炼了。

这是个很实际的问题。如果你在做一个演算法论文，并且是一个新演算法的话，我建议你可以在每个数据集上多尝试几组参数，加深理解。论文里固定用同一组就好了。

如果是一个数据分析类的项目，那应该把每个数据集上的性能弄到比较好，没有必要一致。

取决于两个数据集主要差异在什么地方。

如果仅仅是采集时间不同，或者尺度不同，不需要专门调参；

如果数据类型、分布、类别存在差异，则需要分别调参。

诚邀，我的研究方向是自然语言处理，一般来说，对于同一个任务，同一个最优模型在不同的的benchmark数据集都能得到好的结果，但是也有一些例外，比如你加了一些辅助任务，这些辅助任务和主任务会相互制约，这时，辅助任务的占比在不同数据集一般都不同

我之前也遇到过，两个数据集不一样，但他们的变数均相同，即列名相同，结果一个精度高一个精度低0.2这样，后来发现其中一个数据集分布比较均衡，另一个存在数据不平衡问题。走心总结，可以点开看看，望有帮助～

原理+代码｜Python 基于不平衡数据的反欺诈模型实战(附源数据)本文将基于不平衡数据，使用Python进行反欺诈模型数据分析实战，模拟分类预测模型中因变数分类出现不平衡时该如何解决，具体的案例应用场景除反欺诈外，还有客户违约和疾病检测等。只要是因变数中各分类占比悬殊，就可对其使用一定的采样方法，以达到除模…