我的论文里用到了两个不同的数据集,是要在两个数据集上分别调参么?还是在一个数据集上调过了在另外一个数据集拿过来直接用就好了?我看其他的论文用到两个数据集的有很多,但是好像很少有说明有不同超参数的啊


谢邀。

题主提到是两个不同的数据集,而不是某一数据集的 100k 与 1M 的不同 release。

这里建议题主先对两个数据集的构建情况进行了解,接著对数据集的数据分布情况进行了解,这样才能初步了解两个数据集之间的异同点。如果两个数据集几乎相同,那分别调参并在论文中陈述时,我作为读者,会在心中画上一个小小的问号 ?

如果数据集较为不同,例如题主 model 的 motivation 是想要解决 baseline 的 Multi-domain 问题,那么对于不同的数据集去调整部分参数,例如 dropout ratio 与 teacher forcing ratio 等等,取得 sota 的结果以辅证题主 model 结构设计的合理性与性能的优越性,题主的论文会更加令人信服 o( ̄▽ ̄)d


谢邀。

对的要调,在每个数据集上达到最好表现就行了。不然这丹也太好炼了。


这是个很实际的问题。如果你在做一个演算法论文,并且是一个新演算法的话,我建议你可以在每个数据集上多尝试几组参数,加深理解。论文里固定用同一组就好了。

如果是一个数据分析类的项目,那应该把每个数据集上的性能弄到比较好,没有必要一致。


取决于两个数据集主要差异在什么地方。

如果仅仅是采集时间不同,或者尺度不同,不需要专门调参;

如果数据类型、分布、类别存在差异,则需要分别调参。


诚邀,我的研究方向是自然语言处理,一般来说,对于同一个任务,同一个最优模型在不同的的benchmark数据集都能得到好的结果,但是也有一些例外,比如你加了一些辅助任务,这些辅助任务和主任务会相互制约,这时,辅助任务的占比在不同数据集一般都不同


我之前也遇到过,两个数据集不一样,但他们的变数均相同,即列名相同,结果一个精度高一个精度低0.2这样,后来发现其中一个数据集分布比较均衡,另一个存在数据不平衡问题。走心总结,可以点开看看,望有帮助~

原理+代码|Python 基于不平衡数据的反欺诈模型实战(附源数据)本文将基于不平衡数据,使用Python进行 反欺诈模型数据分析实战,模拟分类预测模型中因变数分类出现不平衡时该如何解决,具体的案例应用场景除反欺诈外,还有客户违约和疾病检测等。只要是因变数中各分类占比悬殊,就可对其使用一定的采样方法,以达到除模…1 赞同 · 0 评论查看完整文章

我认为针对之前字典学习和现在深度学习,除了网路可适应变化的参数,其他的参数应该比较固定会公平些吧,如果每个数据集都需要调节额外的信息,那就说明你这个模型的泛化性不好,也无法用在实际的情况中。

一个想法是,能否让一些参数融入到网路中,让网路自适应的学习各个数据集条件下最优的参数。


取决于这两个数据集是否是类似的,比如说变数的种类是否差不多以及变数的维度是否一致。


推荐阅读:
相关文章