半监督学习中也会遭遇数据不平衡。简单的比如二分类人脸眼镜分类问题,监督数据很少,保持平衡很容易;但对于非监督数据,数据量就可能严重不平衡。此时如何缓解数据不平衡对神经网路分类效果的影响呢?

很显然,此时,对少量的标注数据的undersampling 和 oversampling是不合理的。

感谢回答。

更新:比如在我的实验中,在CelebA人脸数据集利用semi-gan[1]做半监督性别分类,只用50个标注样本没有问题,二分类能达到97%。但是如果做眼镜分类的话,50个标注样本中,一半是有眼镜,一半没有,但是无标注数据是严重不平衡的。结果:测试集的分类效果很差。

最好是端对端的方式。有知友说尝试聚类,这个我觉得是过于问题复杂化了。

[1]Improved Techniques for Training GANs


半监督学习的数据不均衡问题确实比较棘手。我很少做半监督学习,暂时没有想到很好的解决方案。这是一个很好的问题,之前大概也很少有人研究?

说到Improved GAN,你可以看一下它的改进版本bad gan[1]。关于它的讨论可以参看我们之前的一次讨论。


聚类方法个人尝试过 效果并不好 因为你无法知道演算法在什么维度上聚类的. 比如你期望能在有无眼镜的维度上进行聚类 可是演算法有可能是按照头发颜色或者皮肤颜色等等聚类.

即使是树形聚类 也有可能将你想要的类分到多个子类里(比如黄头发-黑皮肤-眼镜 和 黑头发-黄皮肤-眼镜) 而且也不能排除完全没有按照你希望的维度聚类.

个人近期也遇到同样问题 希望有大神来指导下.


如果情况真有你说的那么严重,那么手动扣图,然后做数据合成的成本应该也可以接受了吧。比如知乎上就有一批邪教徒,喜欢把眼镜单独抠出来然后到处p。

讲道理,要是我的话,就把半监督强行转换成有监督(手动斜眼)。有想演算法的时间,早就把数据标完了。→_→


既然是图片,把数量少的分类做图像变换后把数量做上去就行了。


推荐阅读:
相关文章